論文の概要: Student-Informed Teacher Training
- arxiv url: http://arxiv.org/abs/2412.09149v1
- Date: Thu, 12 Dec 2024 10:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:30:56.415887
- Title: Student-Informed Teacher Training
- Title(参考訳): 学生インフォームド・トレーニング
- Authors: Nico Messikommer, Jiaxu Xing, Elie Aljalbout, Davide Scaramuzza,
- Abstract要約: 特権教師による模倣学習は,画像などの高次元入力から複雑な制御行動を学ぶのに有効であることが証明されている。
この枠組みでは、教師は特権的なタスク情報で訓練され、生徒はより限られた観察で教師の行動を予測しようとする。
本研究では,教師と生徒の政策を共同で学習する枠組みを提案し,学生が模倣できる行動を学ぶことを指導する。
- 参考スコア(独自算出の注目度): 19.895253502371588
- License:
- Abstract: Imitation learning with a privileged teacher has proven effective for learning complex control behaviors from high-dimensional inputs, such as images. In this framework, a teacher is trained with privileged task information, while a student tries to predict the actions of the teacher with more limited observations, e.g., in a robot navigation task, the teacher might have access to distances to nearby obstacles, while the student only receives visual observations of the scene. However, privileged imitation learning faces a key challenge: the student might be unable to imitate the teacher's behavior due to partial observability. This problem arises because the teacher is trained without considering if the student is capable of imitating the learned behavior. To address this teacher-student asymmetry, we propose a framework for joint training of the teacher and student policies, encouraging the teacher to learn behaviors that can be imitated by the student despite the latters' limited access to information and its partial observability. Based on the performance bound in imitation learning, we add (i) the approximated action difference between teacher and student as a penalty term to the reward function of the teacher, and (ii) a supervised teacher-student alignment step. We motivate our method with a maze navigation task and demonstrate its effectiveness on complex vision-based quadrotor flight and manipulation tasks.
- Abstract(参考訳): 特権教師による模倣学習は,画像などの高次元入力から複雑な制御行動を学ぶのに有効であることが証明されている。
この枠組みでは、教師は特権的なタスク情報で訓練され、生徒はロボットナビゲーションタスクにおいて、より限られた観察で教師の行動を予測しようとするが、教師は近くの障害物までの距離にアクセスでき、学生はシーンの視覚的な観察しか受け取らない。
しかし、特権的な模倣学習は重要な課題に直面しており、学生は部分的な観察可能性のために教師の行動を模倣できないかもしれない。
この問題は、教師が学習した振る舞いを模倣できるかどうかを考慮せずに訓練されるためである。
この教師-学生非対称性に対処するため、教師と生徒の政策を共同で訓練する枠組みを提案し、教師は教師が情報へのアクセスや部分的観察性に制限があるにもかかわらず、生徒が模倣できる行動を学ぶことを奨励する。
模倣学習におけるパフォーマンスに基づいて、追加する
一 教師の報奨機能に対する罰語としての教師と生徒の近似行動差及び
(二)教師教育学生のアライメントのステップ。
我々は迷路ナビゲーションタスクでこの手法を動機付け、複雑な視覚に基づく四極子飛行と操作タスクの有効性を実証する。
関連論文リスト
- Representational Alignment Supports Effective Machine Teaching [81.19197059407121]
GRADEは、教育と表現的アライメントを研究するための新しい制御された実験環境である。
学生との表現的整合性が向上し,生徒の学習成果が向上することがわかった。
しかし、この効果は、教えられているクラスのサイズと表現の多様性によって中和される。
論文 参考訳(メタデータ) (2024-06-06T17:48:24Z) - Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios [3.638198517970729]
実証から学ぶことは、類似エージェントでシステムを訓練する効果的な方法である。
しかし、生徒の能力の限界から外れたデモを自然に複製することは、効率的な学習を制限することができる。
本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T05:52:42Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - Sparse Teachers Can Be Dense with Knowledge [35.83646432932867]
本稿では,各教師パラメータに対する総合的知識スコアの指導の下で,スパースな教師のトリックを提案する。
学生が親しみやすいパラメータを除去しながら、表現的パラメータを確実に保持することを目的としている。
GLUEベンチマークの実験では、提案された疎外教師は知識に密着し、魅力的なパフォーマンスを持つ学生に導かれることが示されている。
論文 参考訳(メタデータ) (2022-10-08T05:25:34Z) - Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。
本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。
本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文 参考訳(メタデータ) (2022-04-26T04:43:57Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Self-Training with Differentiable Teacher [80.62757989797095]
自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。
この手法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。
そこで我々は,教師学生をStackelbergゲームとして扱う,差別化可能な自己学習法を提案する。
論文 参考訳(メタデータ) (2021-09-15T02:06:13Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。