論文の概要: Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning
- arxiv url: http://arxiv.org/abs/2310.14196v1
- Date: Sun, 22 Oct 2023 06:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:11:43.455112
- Title: Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning
- Title(参考訳): 識別への学習 : 嗜好と表現の学習による異種人間デモの省略
- Authors: Sachit Kuhar and Shuo Cheng and Shivang Chopra and Matthew Bronars and
Danfei Xu
- Abstract要約: 本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
- 参考スコア(独自算出の注目度): 12.4468604987226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Practical Imitation Learning (IL) systems rely on large human demonstration
datasets for successful policy learning. However, challenges lie in maintaining
the quality of collected data and addressing the suboptimal nature of some
demonstrations, which can compromise the overall dataset quality and hence the
learning outcome. Furthermore, the intrinsic heterogeneity in human behavior
can produce equally successful but disparate demonstrations, further
exacerbating the challenge of discerning demonstration quality. To address
these challenges, this paper introduces Learning to Discern (L2D), an offline
imitation learning framework for learning from demonstrations with diverse
quality and style. Given a small batch of demonstrations with sparse quality
labels, we learn a latent representation for temporally embedded trajectory
segments. Preference learning in this latent space trains a quality evaluator
that generalizes to new demonstrators exhibiting different styles. Empirically,
we show that L2D can effectively assess and learn from varying demonstrations,
thereby leading to improved policy performance across a range of tasks in both
simulations and on a physical robot.
- Abstract(参考訳): 実践的模倣学習(IL)システムは、政策学習を成功させるために大規模な人間の実演データセットに依存している。
しかしながら、収集されたデータの品質を維持し、いくつかのデモの最適以下の性質に対処する上での課題は、データセットの全体的な品質を損なう可能性がある。
さらに、人間の行動に内在する不均一性は、等しく成功するが異質なデモンストレーションを生み出すことがあり、デモの質を見極めるという課題をさらに悪化させる。
これらの課題に対処するために,多様な品質とスタイルのデモンストレーションから学ぶためのオフライン模倣学習フレームワークであるL2Dを紹介した。
粗い品質ラベルを持つ少数の実演を考えると、時間的に埋め込まれた軌道セグメントの潜在表現を学習する。
この潜在空間における選好学習は、異なるスタイルを示す新しいデモンストレータに一般化された品質評価器を訓練する。
実証的に,l2dは様々なデモから効果的に評価し,学習し,シミュレーションと物理ロボットの両方において,様々なタスクにわたるポリシー性能の向上に繋がることを示した。
関連論文リスト
- Representation Alignment from Human Feedback for Cross-Embodiment Reward Learning from Mixed-Quality Demonstrations [8.71931996488953]
本研究では,1つ以上の実施形態におけるビデオデモから報酬関数を学習したいと考える,クロス・エボディメント逆強化学習の課題について検討する。
本研究では,人間からのフィードバックを表現学習やアライメントに活用し,効果的なクロス・エボディメント学習を実現する技術について分析する。
論文 参考訳(メタデータ) (2024-08-10T18:24:14Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。