論文の概要: Curating Demonstrations using Online Experience
- arxiv url: http://arxiv.org/abs/2503.03707v1
- Date: Wed, 05 Mar 2025 17:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:58.939018
- Title: Curating Demonstrations using Online Experience
- Title(参考訳): オンライン体験を用いたデモのキュレーション
- Authors: Annie S. Chen, Alec M. Lessing, Yuejiang Liu, Chelsea Finn,
- Abstract要約: また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
- 参考スコア(独自算出の注目度): 52.59275477573012
- License:
- Abstract: Many robot demonstration datasets contain heterogeneous demonstrations of varying quality. This heterogeneity may benefit policy pre-training, but can hinder robot performance when used with a final imitation learning objective. In particular, some strategies in the data may be less reliable than others or may be underrepresented in the data, leading to poor performance when such strategies are sampled at test time. Moreover, such unreliable or underrepresented strategies can be difficult even for people to discern, and sifting through demonstration datasets is time-consuming and costly. On the other hand, policy performance when trained on such demonstrations can reflect the reliability of different strategies. We thus propose for robots to self-curate based on online robot experience (Demo-SCORE). More specifically, we train and cross-validate a classifier to discern successful policy roll-outs from unsuccessful ones and use the classifier to filter heterogeneous demonstration datasets. Our experiments in simulation and the real world show that Demo-SCORE can effectively identify suboptimal demonstrations without manual curation. Notably, Demo-SCORE achieves over 15-35% higher absolute success rate in the resulting policy compared to the base policy trained with all original demonstrations.
- Abstract(参考訳): 多くのロボットのデモデータセットには、様々な品質の異質なデモが含まれている。
この異質性は、政策事前訓練の恩恵を受けるかもしれないが、最終的な模倣学習目的で使用すると、ロボットのパフォーマンスを損なう可能性がある。
特に、データ内のいくつかの戦略は、他の戦略よりも信頼性が低い場合や、データに不足している場合があり、そのような戦略がテスト時にサンプリングされるとパフォーマンスが低下する。
さらに、そのような信頼できない、あるいは表現できない戦略は、人々が識別することさえ困難であり、デモンストレーションデータセットを精査するのは時間と費用がかかります。
一方、このような実演で訓練された場合の政策性能は、異なる戦略の信頼性を反映することができる。
そこで我々は,オンラインロボット体験(Demo-SCORE)に基づいて自己計算を行うロボットを提案する。
具体的には、成功しているポリシーロールアウトと失敗しているポリシーロールアウトを識別するために分類器をトレーニングし、クロスバリデーションし、その分類器を使って異種なデモデータセットをフィルタリングする。
シミュレーションと実世界の実験により,手作業によるキュレーションを伴わずに,Demo-SCOREを効果的に同定できることが判明した。
特に、Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおける絶対的な成功率を15~35%以上達成している。
関連論文リスト
- AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning [12.4468604987226]
本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
論文 参考訳(メタデータ) (2023-10-22T06:08:55Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。