論文の概要: CUPID: Curating Data your Robot Loves with Influence Functions
- arxiv url: http://arxiv.org/abs/2506.19121v1
- Date: Mon, 23 Jun 2025 20:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.383914
- Title: CUPID: Curating Data your Robot Loves with Influence Functions
- Title(参考訳): ロボットが好きなデータをインフルエンス関数でキュレートするCUPID
- Authors: Christopher Agia, Rohan Sinha, Jingyun Yang, Rika Antonova, Marco Pavone, Haruki Nishimura, Masha Itkina, Jeannette Bohg,
- Abstract要約: CUPIDは、模倣学習ポリシーのための新しい影響関数理論定式化に基づく、ロボットデータキュレーション手法である。
我々は,1)政策パフォーマンスを損なうトレーニングデモをフィルタリングし,2)政策を最も改善する新たなトラジェクトリをサブセレクトするために,CUPIDを用いてデータをキュレートする。
- 参考スコア(独自算出の注目度): 33.63430663754281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In robot imitation learning, policy performance is tightly coupled with the quality and composition of the demonstration data. Yet, developing a precise understanding of how individual demonstrations contribute to downstream outcomes - such as closed-loop task success or failure - remains a persistent challenge. We propose CUPID, a robot data curation method based on a novel influence function-theoretic formulation for imitation learning policies. Given a set of evaluation rollouts, CUPID estimates the influence of each training demonstration on the policy's expected return. This enables ranking and selection of demonstrations according to their impact on the policy's closed-loop performance. We use CUPID to curate data by 1) filtering out training demonstrations that harm policy performance and 2) subselecting newly collected trajectories that will most improve the policy. Extensive simulated and hardware experiments show that our approach consistently identifies which data drives test-time performance. For example, training with less than 33% of curated data can yield state-of-the-art diffusion policies on the simulated RoboMimic benchmark, with similar gains observed in hardware. Furthermore, hardware experiments show that our method can identify robust strategies under distribution shift, isolate spurious correlations, and even enhance the post-training of generalist robot policies. Additional materials are made available at: https://cupid-curation.github.io.
- Abstract(参考訳): ロボット模倣学習において、ポリシー性能は、デモデータの質と構成と密結合される。
しかし、個別のデモンストレーションがダウンストリームの結果(クローズドループタスクの成功や失敗など)にどのように貢献するかを正確に理解することは、依然として永続的な課題です。
模倣学習ポリシーのための新しい影響関数理論定式化に基づくロボットデータキュレーション手法であるCUPIDを提案する。
評価ロールアウトのセットが与えられた場合、CUPIDは、各トレーニングデモンストレーションがポリシーの期待したリターンに与える影響を見積もる。
これにより、ポリシーのクローズドループのパフォーマンスへの影響に応じて、デモのランク付けと選択が可能になる。
私たちはCUPIDを使ってデータをキュレートします
1)政策パフォーマンスを損なう訓練デモンストレーションのフィルタリング
2) 政策を最も改善する新たなトラジェクトリをサブセレクトすること。
大規模なシミュレーションおよびハードウェア実験により、我々のアプローチは、どのデータがテストタイムのパフォーマンスを駆動しているかを一貫して識別することを示した。
例えば、キュレートされたデータの33%未満のトレーニングでは、シミュレーションされたRoboMimicベンチマーク上で最先端の拡散ポリシーが得られる。
さらに, ハードウェア実験により, 分散シフト下でのロバスト戦略の同定, 突発的相関の分離, 汎用ロボット政策のポストトレーニングの強化が可能であることが示された。
追加資料は、https://cupid-curation.github.io.comで公開されている。
関連論文リスト
- SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning [30.34323856102674]
模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。
本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
論文 参考訳(メタデータ) (2025-05-28T17:45:05Z) - What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - Sales Channel Optimization via Simulations Based on Observational Data
with Delayed Rewards: A Case Study at LinkedIn [4.6405223560607105]
ランダム化実験から得られたデータに関するトレーニングモデルは、良い決定を下すのに最適である。
しかし、ランダム化実験は、しばしば時間を要する、コストがかかる、リスクが高い、実現不可能、または非倫理的である。
問題の特徴を扱える離散時間シミュレーションを構築し、異なるポリシーを評価するために使用します。
シミュレーションの結果,シンプルなMABポリシであるLinUCBは,他のポリシよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-09-16T07:08:37Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。