論文の概要: Learning from the Best: Smoothness-Driven Metrics for Data Quality in Imitation Learning
- arxiv url: http://arxiv.org/abs/2604.23000v1
- Date: Fri, 24 Apr 2026 20:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.091573
- Title: Learning from the Best: Smoothness-Driven Metrics for Data Quality in Imitation Learning
- Title(参考訳): 最高から学ぶ:模倣学習におけるデータ品質のための滑らか度駆動メトリクス
- Authors: Soham Kulkarni, Raayan Dhar, Yuchen Cui,
- Abstract要約: RINSEは、ポリシーアーキテクチャに依存しない軌道の滑らかさに基づいて、デモを評価するためのフレームワークである。
本研究では,スムーズなフィルタリングにより,保持データ分布の条件変動を低減できることを示す。
Re-Mixドメインの再重み付けにおけるソフトウェイトとして、RINSEスコアは、学習されたRe-Mixアロケーションと高い相関を持つドメインアロケーションを生成する。
- 参考スコア(独自算出の注目度): 2.452887009229123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In behavioral cloning (BC), policy performance is fundamentally limited by demonstration data quality. Real-world datasets contain trajectories of varying quality due to operator skill differences, teleoperation artifacts, and procedural inconsistencies, yet standard BC treats all demonstrations equally. Existing curation methods require costly policy training in the loop or manual annotation, limiting scalability. We propose RINSE (Ranking and INdexing Smooth Examples), a lightweight framework for scoring demonstrations based on trajectory smoothness that is policy-architecture-agnostic and operates on trajectory data alone, with TED additionally using a phase-boundary/contact signal. Grounded in motor control theory, which establishes smoothness as a hallmark of skilled movement, RINSE uses two complementary metrics: Spectral Arc Length (SAL), a spectral measure of frequency-domain regularity, and Trajectory-Envelope Distance (TED), a spatial measure of contact-aware geometric deviation. We show that smoothness filtering can reduce the conditional action variance of the retained data distribution, with downstream effects that can be amplified by action chunking and compounding error. On RoboMimic benchmarks, SAL filtering achieves 16% higher success using one-sixth of the data. On real-world manipulation, TED filtering achieves 20% improvement with half the data. As a retrieval-stage filter within STRAP on LIBERO-10, RINSE re-ranking improves mean success by 5.6%. As soft weights in Re-Mix domain reweighting, RINSE scores produce domain allocations highly correlated with the learned Re-Mix allocations (Spearman $ρ\geq 0.89$). These results support smoothness as a useful quality signal across filtering, retrieval, and reweighting settings, especially in noisy or heterogeneous data regimes.
- Abstract(参考訳): 行動クローニング(BC)では、ポリシー性能は実証データの品質によって根本的に制限される。
実世界のデータセットには、オペレータのスキルの違い、遠隔操作のアーティファクト、手続き上の不整合による、さまざまな品質のトラジェクトリが含まれているが、標準のBCはすべてのデモを平等に扱う。
既存のキュレーションメソッドでは、ループや手動のアノテーションにおけるコストのかかるポリシートレーニングが必要で、スケーラビリティが制限されます。
RINSE(Ranking and Indexing Smooth Examples, RINSE)は、ポリシーに依存しない、軌道データのみで動作する軌道平滑性に基づくデモンストレーションのスコアリングを行う軽量なフレームワークである。
熟練運動の指標として滑らか性を確立する運動制御理論に基づいて、RINSEは周波数領域規則性のスペクトル測度であるスペクトルアーク長(SAL)と、接触認識幾何学的偏差の空間測度である軌道-エンベロープ距離(TED)の2つの相補的測度を使用する。
本研究では,スムーズなフィルタリングにより,保持データ分布の条件付き動作分散を低減し,動作チャンキングや合成誤差によって下流効果を増幅できることを示す。
RoboMimicベンチマークでは、SALフィルタリングはデータの6分の1を使って16%高い成功を達成している。
実世界の操作では、TEDフィルタリングはデータの半分で20%改善されている。
LIBERO-10上のSTRAP内の検索ステージフィルタとして、RINSEは平均成功率を5.6%向上させる。
Re-Mixドメインの再重み付けにおけるソフトウェイトとして、RINSEスコアは、学習されたRe-Mixアロケーション(Spearman $ρ\geq 0.89$)と高い相関のドメインアロケーションを生成する。
これらの結果は、特にノイズや不均一なデータ構造において、フィルタリング、検索、再重み付け設定にまたがる有用な品質信号として、滑らかさをサポートする。
関連論文リスト
- Bayesian Learning-Enhanced Navigation with Deep Smoothing for Inertial-Aided Navigation [8.510813384980262]
BLENDSはデータ駆動のポストプロセッシングフレームワークで、トランスフォーマーベースのニューラルネットワークによって従来の2フィルタスムーズな拡張を行う。
BLENDSは、ベースライン前方EKFよりも最大63%の水平位置改善を実現している。
論文 参考訳(メタデータ) (2026-03-26T12:11:59Z) - SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated learning [0.7799711162530713]
現在のMLアプローチでは、非現実的なデータアグリゲーションを必要とするか、クラス不均衡のため失敗する。
SCOPEは,異常をフィルタし,冗長なデータを長期スキューに適応させる,フェデレートされたデータのためのコアセットフレームワークである。
SCOPEは、アップリンク帯域幅を128倍から512倍に削減しながら、競争力のあるグローバル精度と堅牢な収束をもたらす。
論文 参考訳(メタデータ) (2026-03-13T13:24:12Z) - CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory [19.64051996386645]
CREAMは、メモリベースの連続検索のための自己教師型フレームワークである。
教師なしの環境では、目に見えないトピックと見えないトピックの両方に適応します。
2つのベンチマークデータセットの実験は、CREAMが優れた適応性と精度を示すことを示した。
論文 参考訳(メタデータ) (2026-01-06T04:47:49Z) - Understanding Dataset Distillation via Spectral Filtering [69.07076441512612]
多様なDD目標を統一するスペクトルフィルタリングフレームワークであるUniDDを紹介する。
UniDDは、DDの本質が基本的に周波数固有の特徴に合致していることを明らかにする。
この制限に対処するため,低周波情報と高周波情報の両方をカバーするためにフィルタパラメータを徐々に調整するCFM(Curriculum Frequency Matching)を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:22:34Z) - SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。
本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。
本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-05T10:55:29Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。