論文の概要: A teacher-student framework for online correctional learning
- arxiv url: http://arxiv.org/abs/2111.07818v1
- Date: Mon, 15 Nov 2021 15:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 17:28:46.851957
- Title: A teacher-student framework for online correctional learning
- Title(参考訳): オンライン校正学習のための教師支援フレームワーク
- Authors: In\^es Louren\c{c}o, Rebecka Winqvist, Cristian R. Rojas, Bo Wahlberg
- Abstract要約: 本研究では,教師の助けを借りて,学生の推定値のばらつきを減らしたことを示す。
オンラインの問題を定式化します - 教師は、観察を変更するかどうかを瞬時に決めなければならないのです。
この枠組みを数値実験で検証し、最適オンラインポリシーとバッチ設定のフレームワークを比較した。
- 参考スコア(独自算出の注目度): 12.980296933051509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A classical learning setting is one in which a student collects data, or
observations, about a system, and estimates a certain quantity of interest
about it. Correctional learning is a type of cooperative teacher-student
framework where a teacher, who has knowledge about the system, has the
possibility to observe and alter (correct) the observations received by the
student in order to improve its estimation. In this paper, we show that the
variance of the estimate of the student is reduced with the help of the
teacher. We further formulate the online problem - where the teacher has to
decide at each time instant whether or not to change the observations - as a
Markov decision process, from which the optimal policy is derived using dynamic
programming. We validate the framework in numerical experiments, and compare
the optimal online policy with the one from the batch setting.
- Abstract(参考訳): 古典的な学習環境とは、学生がシステムに関するデータや観察を収集し、それに関する一定の量の関心を見積もるものである。
矯正学習(英: correctional learning)とは、システムに関する知識を有する教師が、生徒が受ける観察を観察し、変更(修正)し、その推定を改善することのできる、協調的な教師・学生の枠組みである。
本稿では,教師の助けを借りて,学生の推定値のばらつきを低減できることを示す。
さらに、教師が観察を変更するかどうかを瞬時に判断しなければならないオンライン問題を、動的プログラミングを用いて最適なポリシーが導出されるマルコフ決定プロセスとして定式化する。
提案手法を数値実験で検証し,最適なオンラインポリシーとバッチ設定の手法を比較した。
関連論文リスト
- Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - Optimal Transport for Correctional Learning [9.25190738506728]
補正学習はパラメータ推定プロセスの精度を高めるために開発されたフレームワークである。
このフレームワークでは、教師と呼ばれる専門家エージェントが、学生として知られる学習エージェントが使用するデータを変更して、その推定プロセスを改善する。
教師の目的は、学生の見積もりミスを最小限に抑えるようにデータを変更することである。
論文 参考訳(メタデータ) (2023-04-04T10:55:32Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。
本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。
本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文 参考訳(メタデータ) (2022-04-26T04:43:57Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Active Imitation Learning from Multiple Non-Deterministic Teachers:
Formulation, Challenges, and Algorithms [3.6702509833426613]
我々は,対話コストを最小に抑えつつ,複数の非決定論的教師を模倣する学習の問題を定式化する。
まず,教師の方針の連続表現を学習することで,そのような分布を効率的にモデル化し,推定する一般的な枠組みを提案する。
次に,学習者と教師のインタラクションコストを削減するための能動的学習アルゴリズムである,能動的パフォーマンスに基づく模倣学習(APIL)を開発した。
論文 参考訳(メタデータ) (2020-06-14T03:06:27Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。