論文の概要: Interaction-limited Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.00425v1
- Date: Wed, 1 Jul 2020 12:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:08:09.666282
- Title: Interaction-limited Inverse Reinforcement Learning
- Title(参考訳): インタラクション限定逆強化学習
- Authors: Martin Troussard, Emmanuel Pignat, Parameswaran Kamalaruban, Sylvain
Calinon, Volkan Cevher
- Abstract要約: 本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
- 参考スコア(独自算出の注目度): 50.201765937436654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an inverse reinforcement learning (IRL) framework to
accelerate learning when the learner-teacher \textit{interaction} is
\textit{limited} during training. Our setting is motivated by the realistic
scenarios where a helpful teacher is not available or when the teacher cannot
access the learning dynamics of the student. We present two different training
strategies: Curriculum Inverse Reinforcement Learning (CIRL) covering the
teacher's perspective, and Self-Paced Inverse Reinforcement Learning (SPIRL)
focusing on the learner's perspective. Using experiments in simulations and
experiments with a real robot learning a task from a human demonstrator, we
show that our training strategies can allow a faster training than a random
teacher for CIRL and than a batch learner for SPIRL.
- Abstract(参考訳): 本稿では,学習者-教師 \textit{interaction} がトレーニング中に \textit{limited} である場合の学習を高速化する逆強化学習(irl)フレームワークを提案する。
私たちの設定は、有用な教師がいないり、教師が生徒の学習ダイナミクスにアクセスできないような現実的なシナリオに動機づけられています。
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットによる実験を用いて,人間の実演者からタスクを学習し,学習戦略がcirlの無作為教師やspirlのバッチ学習者よりも高速に学習できることを示す。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Learn to Teach: Improve Sample Efficiency in Teacher-student Learning
for Sim-to-Real Transfer [5.731477362725785]
本稿では,教師が収集した学習体験をリサイクルする学習学習フレームワークであるLearning to Teach (L2T)を提案する。
単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。
論文 参考訳(メタデータ) (2024-02-09T21:16:43Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - Reinforcement Teaching [43.80089037901853]
本稿では,教師の学習過程を制御するためのメタ学習の枠組みである強化指導を提案する。
学生の学習過程はマルコフ報酬プロセスとしてモデル化され、教師は行動空間でマルコフ決定プロセスと相互作用する。
多くの学習過程において、学習可能なパラメータがマルコフ状態を形成することを示し、教師がパラメータから直接学習することを避けるために、入力・出力動作から生徒の状態の表現を学習する埋め込み器を提案する。
論文 参考訳(メタデータ) (2022-04-25T18:04:17Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Learning by Teaching, with Application to Neural Architecture Search [10.426533624387305]
学習による学習(LBT)と呼ばれる新しいMLフレームワークを提案する。
lbtでは、教師モデルが生徒モデルにうまく学ぶように教えることで自己改善する。
バリデーションデータセットで生徒がどのように振る舞うかに基づいて、教師はモデルを再学習し、生徒が優れたバリデーション性能に達するまで再指導する。
論文 参考訳(メタデータ) (2021-03-11T23:50:38Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。