論文の概要: Active Imitation Learning from Multiple Non-Deterministic Teachers:
Formulation, Challenges, and Algorithms
- arxiv url: http://arxiv.org/abs/2006.07777v1
- Date: Sun, 14 Jun 2020 03:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:40:56.499623
- Title: Active Imitation Learning from Multiple Non-Deterministic Teachers:
Formulation, Challenges, and Algorithms
- Title(参考訳): 複数の非決定論的教師によるアクティブ模倣学習--定式化、挑戦、アルゴリズム
- Authors: Khanh Nguyen and Hal Daum\'e III
- Abstract要約: 我々は,対話コストを最小に抑えつつ,複数の非決定論的教師を模倣する学習の問題を定式化する。
まず,教師の方針の連続表現を学習することで,そのような分布を効率的にモデル化し,推定する一般的な枠組みを提案する。
次に,学習者と教師のインタラクションコストを削減するための能動的学習アルゴリズムである,能動的パフォーマンスに基づく模倣学習(APIL)を開発した。
- 参考スコア(独自算出の注目度): 3.6702509833426613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We formulate the problem of learning to imitate multiple, non-deterministic
teachers with minimal interaction cost. Rather than learning a specific policy
as in standard imitation learning, the goal in this problem is to learn a
distribution over a policy space. We first present a general framework that
efficiently models and estimates such a distribution by learning continuous
representations of the teacher policies. Next, we develop Active
Performance-Based Imitation Learning (APIL), an active learning algorithm for
reducing the learner-teacher interaction cost in this framework. By making
query decisions based on predictions of future progress, our algorithm avoids
the pitfalls of traditional uncertainty-based approaches in the face of teacher
behavioral uncertainty. Results on both toy and photo-realistic navigation
tasks show that APIL significantly reduces the numbers of interactions with
teachers without compromising on performance. Moreover, it is robust to various
degrees of teacher behavioral uncertainty.
- Abstract(参考訳): 対話コストを最小に抑えながら,複数の非決定性教師を模倣する学習問題を定式化する。
標準的な模倣学習のように特定の方針を学ぶのではなく、政策空間上の分布を学習することである。
まず,教師方針の連続表現を学習することにより,その分布を効率的にモデル化し,推定する汎用フレームワークを提案する。
次に,このフレームワークの学習者-教師間インタラクションコストを削減するアクティブラーニングアルゴリズムであるactive performance-based imitation learning (apil)を開発した。
今後の進捗予測に基づいてクエリ決定を行うことで,教師の行動の不確実性に直面した従来の不確実性に基づくアプローチの落とし穴を回避することができる。
トイとフォトリアリスティックの両方のナビゲーションタスクの結果から,APILはパフォーマンスを損なうことなく,教師との対話の回数を大幅に削減することが示された。
また,教師の行動の不確実性の度合いも高い。
関連論文リスト
- Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - Interactively Teaching an Inverse Reinforcement Learner with Limited
Feedback [4.174296652683762]
逐次意思決定課題における実演を通しての授業の課題について検討する。
本研究では,学習過程を限られたフィードバックで形式化し,この問題を解決するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-16T21:12:04Z) - TGRL: An Algorithm for Teacher Guided Reinforcement Learning [45.38447023752256]
強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。
私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
論文 参考訳(メタデータ) (2023-07-06T17:58:40Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Contrastive Continual Learning with Feature Propagation [32.70482982044965]
連続した機械学習者は、異なるタスク間でドメインやクラスシフトを伴うタスクのストリームを寛大に学習する。
本稿では,複数の連続学習シナリオを処理可能な特徴伝達に基づくコントラスト型連続学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T04:55:28Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。