論文の概要: SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning
- arxiv url: http://arxiv.org/abs/2505.22626v1
- Date: Wed, 28 May 2025 17:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.771253
- Title: SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning
- Title(参考訳): SCIZOR:大規模模倣学習のためのデータキュレーションのための自己監督型アプローチ
- Authors: Yu Zhang, Yuqi Xie, Huihan Liu, Rutav Shah, Michael Wan, Linxi Fan, Yuke Zhu,
- Abstract要約: 模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。
本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
- 参考スコア(独自算出の注目度): 30.34323856102674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning advances robot capabilities by enabling the acquisition of diverse behaviors from human demonstrations. However, large-scale datasets used for policy training often introduce substantial variability in quality, which can negatively impact performance. As a result, automatically curating datasets by filtering low-quality samples to improve quality becomes essential. Existing robotic curation approaches rely on costly manual annotations and perform curation at a coarse granularity, such as the dataset or trajectory level, failing to account for the quality of individual state-action pairs. To address this, we introduce SCIZOR, a self-supervised data curation framework that filters out low-quality state-action pairs to improve the performance of imitation learning policies. SCIZOR targets two complementary sources of low-quality data: suboptimal data, which hinders learning with undesirable actions, and redundant data, which dilutes training with repetitive patterns. SCIZOR leverages a self-supervised task progress predictor for suboptimal data to remove samples lacking task progression, and a deduplication module operating on joint state-action representation for samples with redundant patterns. Empirically, we show that SCIZOR enables imitation learning policies to achieve higher performance with less data, yielding an average improvement of 15.4% across multiple benchmarks. More information is available at: https://ut-austin-rpl.github.io/SCIZOR/
- Abstract(参考訳): 模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
しかし、ポリシートレーニングに使用される大規模なデータセットは、しばしば品質にかなりのばらつきをもたらし、パフォーマンスに悪影響を及ぼす可能性がある。
結果として、低品質のサンプルをフィルタリングして自動的にデータセットをキュレートし、品質を改善することが不可欠である。
既存のロボットキュレーションアプローチは、コストのかかる手作業によるアノテーションに依存し、データセットや軌道レベルといった粗い粒度でキュレーションを行い、個々の状態-動作ペアの品質を考慮できない。
そこで本研究では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
SCIZORは、望ましくない行動で学習を妨げる亜最適データと、反復的なパターンでトレーニングを希釈する冗長データという、2つの相補的な低品質データソースをターゲットにしている。
SCIZORは、タスク進捗を欠いたサンプルを除去するために、サブ最適データのための自己教師型タスク進捗予測器と、冗長なパターンを持つサンプルの共振状態表現で動作する重複モジュールを利用する。
実験により、SCIZORはデータの少ないデータで高い性能を達成でき、複数のベンチマークで平均15.4%の改善が得られることを示した。
詳細は、https://ut-austin-rpl.github.io/SCIZOR/で確認できる。
関連論文リスト
- Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。