論文の概要: Learn to Teach: Improve Sample Efficiency in Teacher-student Learning
for Sim-to-Real Transfer
- arxiv url: http://arxiv.org/abs/2402.06783v1
- Date: Fri, 9 Feb 2024 21:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:19:35.507116
- Title: Learn to Teach: Improve Sample Efficiency in Teacher-student Learning
for Sim-to-Real Transfer
- Title(参考訳): 授業の学習: 教師と教師の同時移動学習におけるサンプル効率の向上
- Authors: Feiyang Wu, Zhaoyuan Gu, Ye Zhao, Anqi Wu
- Abstract要約: 本稿では,教師が収集した学習体験をリサイクルする学習学習フレームワークであるLearning to Teach (L2T)を提案する。
単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。
- 参考スコア(独自算出の注目度): 5.731477362725785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation-to-reality (sim-to-real) transfer is a fundamental problem for
robot learning. Domain Randomization, which adds randomization during training,
is a powerful technique that effectively addresses the sim-to-real gap.
However, the noise in observations makes learning significantly harder.
Recently, studies have shown that employing a teacher-student learning paradigm
can accelerate training in randomized environments. Learned with privileged
information, a teacher agent can instruct the student agent to operate in noisy
environments. However, this approach is often not sample efficient as the
experience collected by the teacher is discarded completely when training the
student, wasting information revealed by the environment. In this work, we
extend the teacher-student learning paradigm by proposing a sample efficient
learning framework termed Learn to Teach (L2T) that recycles experience
collected by the teacher agent. We observe that the dynamics of the
environments for both agents remain unchanged, and the state space of the
teacher is coupled with the observation space of the student. We show that a
single-loop algorithm can train both the teacher and student agents under both
Reinforcement Learning and Inverse Reinforcement Learning contexts. We
implement variants of our methods, conduct experiments on the MuJoCo benchmark,
and apply our methods to the Cassie robot locomotion problem. Extensive
experiments show that our method achieves competitive performance while only
requiring environmental interaction with the teacher.
- Abstract(参考訳): シミュレーションから現実へ(sim-to-real)移行は、ロボット学習の基本的な問題である。
トレーニング中にランダム化を追加するドメインランダム化は、sim-to-realギャップに効果的に対処する強力なテクニックである。
しかし、観測におけるノイズは学習を著しく難しくする。
近年,教師・学生の学習パラダイムがランダム化環境での学習を加速できることが研究で示されている。
教師エージェントは、特権的な情報から学習し、学生エージェントに騒がしい環境での操作を指示することができる。
しかし,教師が収集した経験が学生のトレーニング時に完全に捨てられ,環境によって明らかにされる情報を無駄にしてしまうため,このアプローチはサンプリング効率が良くないことが多い。
本研究では,教師エージェントが収集した学習体験をリサイクルする,Learning to Teach(L2T)と呼ばれる,効率的な学習フレームワークを提案する。
両エージェントの環境のダイナミクスは変わらぬままであり,教師の状態空間は生徒の観察空間と結合している。
単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。
提案手法の変種を実装し,MuJoCoベンチマークを用いて実験を行い,Cassieロボットの移動問題に適用する。
本手法は,教師との環境相互作用のみを必要としながら,競争性能を発揮できることを示す。
関連論文リスト
- Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios [3.638198517970729]
実証から学ぶことは、類似エージェントでシステムを訓練する効果的な方法である。
しかし、生徒の能力の限界から外れたデモを自然に複製することは、効率的な学習を制限することができる。
本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T05:52:42Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。
本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。
本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文 参考訳(メタデータ) (2022-04-26T04:43:57Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文 参考訳(メタデータ) (2020-07-01T12:31:52Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。