論文の概要: Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning
- arxiv url: http://arxiv.org/abs/2603.09056v1
- Date: Tue, 10 Mar 2026 00:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.918839
- Title: Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning
- Title(参考訳): 量を超える品質:データ中心型ロボット学習における影響関数による実証的キュレーション
- Authors: Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin Lee,
- Abstract要約: 実演データの質は、効果的なデータ駆動型ロボット学習にとって重要なボトルネックである。
データ品質を各トレーニングサンプルの寄与として定義し,検証結果の損失を低減することによって高品質なデータを特定するために,QoQ(Quality over Quantity)を提案する。
シミュレーションと実世界の両方の環境での実験は、QoQが以前のデータ選択方法よりも一貫してポリシー性能を改善していることを示している。
- 参考スコア(独自算出の注目度): 41.56474276521344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstrations has emerged as a promising paradigm for end-to-end robot control, particularly when scaled to diverse and large datasets. However, the quality of demonstration data, often collected through human teleoperation, remains a critical bottleneck for effective data-driven robot learning. Human errors, operational constraints, and teleoperator variability introduce noise and suboptimal behaviors, making data curation essential yet largely manual and heuristic-driven. In this work, we propose Quality over Quantity (QoQ), a grounded and systematic approach to identifying high-quality data by defining data quality as the contribution of each training sample to reducing loss on validation demonstrations. To efficiently estimate this contribution, we leverage influence functions, which quantify the impact of individual training samples on model performance. We further introduce two key techniques to adapt influence functions for robot demonstrations: (i) using maximum influence across validation samples to capture the most relevant state-action pairs, and (ii) aggregating influence scores of state-action pairs within the same trajectory to reduce noise and improve data coverage. Experiments in both simulated and real-world settings show that QoQ consistently improves policy performances over prior data selection methods.
- Abstract(参考訳): デモから学ぶことは、特に多様な大規模データセットにスケールされた場合、エンドツーエンドのロボット制御のための有望なパラダイムとして現れている。
しかしながら、人間の遠隔操作を通じて収集されるデモデータの質は、効果的なデータ駆動型ロボット学習において重要なボトルネックとなっている。
ヒューマンエラー、運用上の制約、遠隔操作の可変性はノイズや準最適動作を導入し、データキュレーションは必須だが主に手動でヒューリスティックに駆動される。
本研究では,データ品質を各トレーニングサンプルの寄与として定義し,検証結果の損失を低減することによって高品質なデータを特定するための基礎的かつ体系的なアプローチであるQuality over Quantity (QoQ)を提案する。
このコントリビューションを効率的に推定するために、個々のトレーニングサンプルがモデル性能に与える影響を定量化する影響関数を利用する。
さらに、ロボットのデモンストレーションに影響を及ぼす機能を適用するための2つの重要なテクニックを紹介します。
一 検証サンプルの最大影響を利用して、最も関係の深い状態-作用対を捕えること。
二 騒音の低減とデータカバレッジの向上を図るため、同一軌道内における状態-作用対の影響スコアを集約する。
シミュレーションと実世界の両方の環境での実験は、QoQが以前のデータ選択方法よりも一貫してポリシー性能を改善していることを示している。
関連論文リスト
- Z0-Inf: Zeroth Order Approximation for Data Influence [47.682602051124235]
トレーニングデータの影響を推定するための高効率ゼロ階近似を導入する。
提案手法は, 微調整された大規模言語モデルに対して, 自己影響を推定し, 列車試験の影響を推定する上で, 自己影響を推定する上で優れた精度を実現する。
論文 参考訳(メタデータ) (2025-10-13T18:30:37Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning [29.14330314090061]
模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。
本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
論文 参考訳(メタデータ) (2025-05-28T17:45:05Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Evaluating Data Influence in Meta Learning [6.757424294625179]
本稿では,2段階最適化フレームワークにおけるメタラーニングのための一般的なデータ属性評価フレームワークを提案する。
このフレームワークは、内部トレーニングプロセスと外部トレーニングプロセスの両方にわたるデータコントリビューションを包括的にモデル化する。
論文 参考訳(メタデータ) (2025-01-27T11:14:04Z) - Enhancing Object Detection Accuracy in Autonomous Vehicles Using Synthetic Data [0.8267034114134277]
機械学習モデルの性能は、トレーニングデータセットの性質とサイズに依存する。
正確で信頼性の高い機械学習モデルを構築するためには、高品質、多様性、関連性、代表的トレーニングデータが不可欠である。
十分に設計された合成データは、機械学習アルゴリズムの性能を向上させることができると仮定されている。
論文 参考訳(メタデータ) (2024-11-23T16:38:02Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。