論文の概要: Pragmatically Learning from Pedagogical Demonstrations in Multi-Goal
Environments
- arxiv url: http://arxiv.org/abs/2206.04546v1
- Date: Thu, 9 Jun 2022 14:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 20:22:09.026947
- Title: Pragmatically Learning from Pedagogical Demonstrations in Multi-Goal
Environments
- Title(参考訳): 多目的環境における教育デモからの実践的学習
- Authors: Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani
- Abstract要約: 教育的な教師と実践的な学習者を組み合わせることで、実演からの標準学習よりも学習の迅速化と目標のあいまいさを低減できることを示す。
目標条件付き強化学習で学習する2つの人工エージェントを用いたマルチゴール教師-学習者設定において、このモデルの利点を強調した。
- 参考スコア(独自算出の注目度): 9.558051115598657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from demonstration methods usually leverage close to optimal
demonstrations to accelerate training. By contrast, when demonstrating a task,
human teachers deviate from optimal demonstrations and pedagogically modify
their behavior by giving demonstrations that best disambiguate the goal they
want to demonstrate. Analogously, human learners excel at pragmatically
inferring the intent of the teacher, facilitating communication between the two
agents. These mechanisms are critical in the few demonstrations regime, where
inferring the goal is more difficult. In this paper, we implement pedagogy and
pragmatism mechanisms by leveraging a Bayesian model of goal inference from
demonstrations. We highlight the benefits of this model in multi-goal
teacher-learner setups with two artificial agents that learn with
goal-conditioned Reinforcement Learning. We show that combining a pedagogical
teacher and a pragmatic learner results in faster learning and reduced goal
ambiguity over standard learning from demonstrations, especially in the few
demonstrations regime.
- Abstract(参考訳): 実証法からの学習は通常、トレーニングを加速するために最適なデモに近いものを活用する。
対照的に、タスクを提示するとき、人間の教師は最適なデモンストレーションから逸脱し、その目標を最も曖昧にするデモを提供することで、彼らの行動を教育的に修正する。
同様に、人間の学習者は教師の意図を実際的に推論し、2つのエージェント間のコミュニケーションを促進するのに優れている。
これらのメカニズムは、目標を推測することがより困難である少数のデモ体制において重要である。
本稿では,実演による目標推論のベイズモデルを用いて,教育学と実用主義のメカニズムを実践する。
目標条件付き強化学習で学習する2つの人工エージェントを用いたマルチゴール教師-学習者構成におけるこのモデルの利点を強調した。
教育的教師と実践的学習者の組み合わせは, 実演による標準学習よりも学習が速く, 目標曖昧性が低下することを示した。
関連論文リスト
- AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations [9.640594614636049]
深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
実際に十分な高品質なデモを収集するのには時間がかかる。
人間のデモはロボットには適さないかもしれない。
論文 参考訳(メタデータ) (2023-03-29T05:56:44Z) - Boosting Reinforcement Learning and Planning with Demonstrations: A
Survey [25.847796336059343]
シーケンシャルな意思決定にデモを使うことの利点について論じる。
我々は,最近提案されたManiSkillロボット学習ベンチマークにおいて,デモの生成と活用のための実用的なパイプラインを実演する。
論文 参考訳(メタデータ) (2023-03-23T17:53:44Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Pedagogical Demonstrations and Pragmatic Learning in Artificial
Tutor-Learner Interactions [8.715518445626826]
本稿では,複数の目標を持つ環境において,両方の参加者が人工エージェントであるチューター・ラーナー・セットアップにおけるそのようなメカニズムの実装について検討する。
教師からの教育と学習者からの実践主義を用いて,実演による標準学習よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-02-28T21:57:50Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。