論文の概要: Representation Alignment from Human Feedback for Cross-Embodiment Reward Learning from Mixed-Quality Demonstrations
- arxiv url: http://arxiv.org/abs/2408.05610v1
- Date: Sat, 10 Aug 2024 18:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:12:00.928893
- Title: Representation Alignment from Human Feedback for Cross-Embodiment Reward Learning from Mixed-Quality Demonstrations
- Title(参考訳): 混合品質デモによるクロス・エンボディメント・リワード学習のための人間のフィードバックからの表現アライメント
- Authors: Connor Mattson, Anurag Aribandi, Daniel S. Brown,
- Abstract要約: 本研究では,1つ以上の実施形態におけるビデオデモから報酬関数を学習したいと考える,クロス・エボディメント逆強化学習の課題について検討する。
本研究では,人間からのフィードバックを表現学習やアライメントに活用し,効果的なクロス・エボディメント学習を実現する技術について分析する。
- 参考スコア(独自算出の注目度): 8.71931996488953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of cross-embodiment inverse reinforcement learning, where we wish to learn a reward function from video demonstrations in one or more embodiments and then transfer the learned reward to a different embodiment (e.g., different action space, dynamics, size, shape, etc.). Learning reward functions that transfer across embodiments is important in settings such as teaching a robot a policy via human video demonstrations or teaching a robot to imitate a policy from another robot with a different embodiment. However, prior work has only focused on cases where near-optimal demonstrations are available, which is often difficult to ensure. By contrast, we study the setting of cross-embodiment reward learning from mixed-quality demonstrations. We demonstrate that prior work struggles to learn generalizable reward representations when learning from mixed-quality data. We then analyze several techniques that leverage human feedback for representation learning and alignment to enable effective cross-embodiment learning. Our results give insight into how different representation learning techniques lead to qualitatively different reward shaping behaviors and the importance of human feedback when learning from mixed-quality, mixed-embodiment data.
- Abstract(参考訳): そこで我々は,1つ以上のエンボディメントにおけるビデオデモから報酬関数を学習し,学習した報酬を異なるエンボディメント(例えば,異なるアクション空間,ダイナミクス,サイズ,形状など)に転送する。
エンボディメントをまたぐ報酬関数の学習は、人間のビデオによるポリシーをロボットに教えたり、異なるエンボディメントを持つ他のロボットからポリシーを模倣するようにロボットに教えたりするといった設定において重要である。
しかしながら、事前の作業は、ほぼ最適に近いデモが利用可能である場合にのみ焦点を当てている。
対照的に、混合品質のデモンストレーションによるクロス・エボディメント・報酬学習の設定について検討する。
混合品質データから学習する際,先行作業が一般化可能な報酬表現の学習に苦労していることが実証された。
次に,人間からのフィードバックを表現学習やアライメントに活用して,効果的なクロスボデーメント学習を実現する手法について分析する。
この結果から,表現学習手法の違いが報酬形成行動の質的変化にどのように寄与するか,および混合身体データから学習する際の人的フィードバックの重要性について考察した。
関連論文リスト
- Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning [12.4468604987226]
本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
論文 参考訳(メタデータ) (2023-10-22T06:08:55Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - XIRL: Cross-embodiment Inverse Reinforcement Learning [25.793366206387827]
本研究では,クロスエボディメント・デモビデオから視覚に基づく報酬関数を自動的に学習できることを示す。
具体的には,クロス・エボディメント・逆強化学習のための自己指導手法を提案する。
学習した報酬関数は、トレーニング中に見られる実施形態だけでなく、全く新しい実施形態へと一般化する。
論文 参考訳(メタデータ) (2021-06-07T18:45:07Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Skeletal Feature Compensation for Imitation Learning with Embodiment
Mismatch [51.03498820458658]
SILEMは,学習者や専門家から得られた骨格的特徴の違いを補う模倣学習手法である。
我々は、PyBulletのHalfCheetahとAntに基づいておもちゃのドメインを作成し、SILEMのこの種のエンボディメントミスマッチに対する利点を評価する。
また、より現実的な問題について定性的かつ定量的な結果を提供します。人間のデモンストレーションを観察して歩くために、シミュレーションされたヒューマノイドエージェントを教えます。
論文 参考訳(メタデータ) (2021-04-15T22:50:48Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。