論文の概要: An Efficient Metric for Data Quality Measurement in Imitation Learning
- arxiv url: http://arxiv.org/abs/2605.01544v1
- Date: Sat, 02 May 2026 17:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.823977
- Title: An Efficient Metric for Data Quality Measurement in Imitation Learning
- Title(参考訳): 模倣学習におけるデータ品質測定の効率化
- Authors: Noushad Sojib, Momotaz Begum,
- Abstract要約: デプロイ環境で収集されたエンドユーザによるデモを伴う、微調整済みのポリシは、この問題に対処するための有望な戦略である。
実証データをキュレートするための既存の自動化アプローチは、環境におけるポリシーのロールアウトを必要とする。
実演軌跡のパワースペクトル密度(PSD)に基づいて,高速で効率的で完全自動的な実演ランキング尺度を提案する。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) has seen remarkable progress, yet field deployment of IL-powered robots remains hindered by the challenge of out-of-distribution (OOD) scenarios. Fine-tuning pre-trained policies with end-user demonstrations collected in deployment environments is a promising strategy to address this challenge. However, end-user demonstrations are frequently of poor quality, characterized by excessive corrective motions, oscillations, and abrupt adjustments that degrade both learned and fine-tuned policy performance. Existing automated approaches for curating demonstration data require policy rollouts in the environment, making them computationally expensive and impractical for real-world deployment. In this paper, we propose a fast, efficient, and fully automated demonstration ranking metric based on the power spectral density (PSD) of demonstration trajectories. The PSD metric requires no policy learning, environment interaction, or expert labeling, making it well-suited for scalable, in-the-field data curation. Lower PSD values correspond to smoother, higher-quality demonstrations, while higher PSD values indicate erratic, artifact-laden trajectories. We evaluate the proposed metric on two benchmark imitation learning datasets comprising expert and lay-user demonstrations, and through a user study with older adults at a retirement facility, where collected demonstrations are used to fine-tune $\pi0.5$ \cite{intelligence2025pi_} for a daily living task. Results demonstrate that PSD-curated data yields policies with higher task success rates and smoother execution trajectories compared to uncurated baselines and two competitive data-ranking methods.
- Abstract(参考訳): イミテーション・ラーニング(IL)は目覚ましい進歩を遂げてきたが、IL駆動ロボットの現場展開は、アウト・オブ・ディストリビューション(OOD)シナリオの課題によって妨げられている。
デプロイ環境で収集されたエンドユーザによるデモを伴う、微調整済みのポリシは、この問題に対処するための有望な戦略である。
しかし、エンドユーザーによるデモンストレーションは、過度な修正動作、振動、そして学習と微調整の両方のパフォーマンスを低下させる急激な調整によって特徴付けられる、品質の悪いものが多い。
実証データをキュレートするための既存の自動化アプローチでは、環境におけるポリシーのロールアウトが必要であり、実際のデプロイメントには計算コストがかかり実用的ではない。
本稿では,実演軌跡のパワースペクトル密度(PSD)に基づいて,高速で効率的で完全自動的な実演ランキング尺度を提案する。
PSDメトリクスは、ポリシー学習、環境相互作用、専門家のラベル付けを必要としないため、スケーラブルで現場でのデータのキュレーションに適しています。
低いPSD値はより滑らかで高品質なデモに対応し、高いPSD値は不規則でアーティファクトラデンな軌道を示す。
提案手法は,専門家とレイユーザによる実演を含む2つのベンチマーク模擬学習データセットを用いて評価し,定年退職者施設の高齢者を対象としたユーザスタディを通じて,日常の生活作業において,$\pi0.5$ \cite{intelligence2025pi_}を微調整するために,収集された実演を用いて評価した。
その結果,PSD処理したデータは,未処理のベースラインと競合する2つの手法と比較して,タスク成功率と実行軌道のスムーズなポリシが得られることがわかった。
関連論文リスト
- CUPID: Curating Data your Robot Loves with Influence Functions [29.79350259314518]
CUPIDは、模倣学習ポリシーのための新しい影響関数理論定式化に基づく、ロボットデータキュレーション手法である。
我々は,1)政策パフォーマンスを損なうトレーニングデモをフィルタリングし,2)政策を最も改善する新たなトラジェクトリをサブセレクトするために,CUPIDを用いてデータをキュレートする。
論文 参考訳(メタデータ) (2025-06-23T20:49:34Z) - SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning [29.14330314090061]
模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。
本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
論文 参考訳(メタデータ) (2025-05-28T17:45:05Z) - Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。