論文の概要: DataMIL: Selecting Data for Robot Imitation Learning with Datamodels
- arxiv url: http://arxiv.org/abs/2505.09603v1
- Date: Wed, 14 May 2025 17:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.555961
- Title: DataMIL: Selecting Data for Robot Imitation Learning with Datamodels
- Title(参考訳): DataMIL:データモデルを用いたロボット模倣学習のためのデータ選択
- Authors: Shivin Dass, Alaa Khaddaj, Logan Engstrom, Aleksander Madry, Andrew Ilyas, Roberto Martín-Martín,
- Abstract要約: データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。
品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。
我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 77.48472034791213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the robotics community has amassed ever larger and more diverse datasets to train generalist robot policies. However, while these policies achieve strong mean performance across a variety of tasks, they often underperform on individual, specialized tasks and require further tuning on newly acquired task-specific data. Combining task-specific data with carefully curated subsets of large prior datasets via co-training can produce better specialized policies, but selecting data naively may actually harm downstream performance. To address this, we introduce DataMIL, a policy-driven data selection framework built on the datamodels paradigm that reasons about data selection in an end-to-end manner, using the policy itself to identify which data points will most improve performance. Unlike standard practices that filter data using human notions of quality (e.g., based on semantic or visual similarity), DataMIL directly optimizes data selection for task success, allowing us to select data that enhance the policy while dropping data that degrade it. To avoid performing expensive rollouts in the environment during selection, we use a novel surrogate loss function on task-specific data, allowing us to use DataMIL in the real world without degrading performance. We validate our approach on a suite of more than 60 simulation and real-world manipulation tasks - most notably showing successful data selection from the Open X-Embodiment datasets-demonstrating consistent gains in success rates and superior performance over multiple baselines. Our results underscore the importance of end-to-end, performance-aware data selection for unlocking the potential of large prior datasets in robotics. More information at https://robin-lab.cs.utexas.edu/datamodels4imitation/
- Abstract(参考訳): 最近、ロボットコミュニティは、ジェネラリストロボットポリシーを訓練するために、より大きく多様なデータセットを集めている。
しかしながら、これらのポリシーは様々なタスクにわたって強い平均性能を達成するが、個々の特定のタスクでは性能が劣り、新たに取得したタスク固有のデータにさらなるチューニングを必要とすることが多い。
タスク固有のデータと、大規模データセットの慎重にキュレートされたサブセットをコトレーニングすることで、より優れた特別なポリシを生成することができる。
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを導入する。
人間の品質概念(セマンティックや視覚的類似性に基づく)を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化します。
選択中の環境における高価なロールアウトを回避するため,タスク固有のデータに新たな代理損失関数を付加し,パフォーマンスを低下させることなく実世界でDataMILを使用できるようにする。
とくに、Open X-Embodimentデータセットからのデータ選択が成功し、成功率の着実な向上と、複数のベースラインよりも優れたパフォーマンスを実証しています。
この結果から,ロボット工学における大規模データセットの可能性を解き放つ上で,エンド・ツー・エンドでパフォーマンスに配慮したデータ選択の重要性が示唆された。
詳細はhttps://robin-lab.cs.utexas.edu/datamodels4imitation/
関連論文リスト
- Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Feature Selection from Differentially Private Correlations [35.187113265093615]
高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化する。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:54:07Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。