論文の概要: How to utilize failure demo data?: Effective data selection for imitation learning using distribution differences in attention mechanism
- arxiv url: http://arxiv.org/abs/2605.07560v1
- Date: Fri, 08 May 2026 10:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.998359
- Title: How to utilize failure demo data?: Effective data selection for imitation learning using distribution differences in attention mechanism
- Title(参考訳): フェールデモデータの活用方法:注意機構の分布差を利用した模倣学習のための効果的なデータ選択
- Authors: Kana Miyamoto, Kanata Suzuki, Tetsuya Ogata,
- Abstract要約: 本稿では,成功と失敗の相違点の潜在表現を学習し,注意機構に組み込む手法を提案する。
本稿では、各障害サンプルと成功例との注意差を定量化して、障害データを選択するためのポストトレーニング指標を提案する。
- 参考スコア(独自算出の注目度): 3.4735198125706326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning for robotic tasks has relied primarily on policies trained only on successful demonstrations, although failures are unavoidable during human data collection. Many existing approaches for exploiting failure data require additional data processing or iterative policy updates through autonomous rollouts, making it difficult to directly and stably utilize failure data accumulated during data collection. In this work, we propose a method that learns latent representations of success-failure discrepancies and incorporates them into the attention mechanism. During inference, an appropriate latent mode is selected from the initial observation to improve action stability. Furthermore, we introduce a post-training metric that quantifies the attention discrepancy between each failure sample and successful demonstrations to select failure data. Simulation results show that the proposed method improves task success rates when trained with failure data and that the proposed metric identifies failure samples that are beneficial for learning when combined with successful demonstrations. These results suggest that the proposed method can support more efficient use of collected demonstrations in robotic data collection pipelines.
- Abstract(参考訳): ロボットタスクの模倣学習は、主に成功例のみにトレーニングされたポリシーに依存しているが、人間のデータ収集では失敗は避けられない。
障害データを利用する既存のアプローチの多くは、自律的なロールアウトを通じて追加のデータ処理や反復的なポリシ更新を必要とするため、データ収集中に蓄積された障害データを直接的かつ安定的に利用することは困難である。
本研究では,成功と失敗の相違点の潜在表現を学習し,注意機構に組み込む手法を提案する。
推論中、初期観測から適切な潜伏モードを選択し、動作安定性を向上させる。
さらに、各障害サンプルと成功事例との注意差を定量化して、障害データを選択するポストトレーニング指標を提案する。
シミュレーションの結果,提案手法は故障データを用いてトレーニングした際のタスク成功率を向上させるとともに,実演と組み合わせて学習する上で有益である障害サンプルを同定した。
これらの結果から,本手法は,ロボットデータ収集パイプラインにおいて,より効率的な実演の活用を支援することが示唆された。
関連論文リスト
- CCDP: Composition of Conditional Diffusion Policies with Guided Sampling [17.9632871021636]
本稿では,以前に失敗した動作を避けるため,サンプリング分布を改良する改良されたサンプリング戦略を提案する。
本手法は,探索行動の追加を必要とせずに,回復動作を推定できることを実証する。
提案手法では, サンプリングスペースを動的に調整し, 先行サンプルが不足した場合の効率を向上させる低レベルコントローラを提案する。
論文 参考訳(メタデータ) (2025-03-19T16:24:55Z) - Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Stochastic Action Prediction for Imitation Learning [1.6385815610837169]
模倣学習は、観察を行動にマップするポリシーを学ぶために専門家のデモンストレーションに依存するスキルを獲得するためのデータ駆動のアプローチです。
遠隔操作車によるライン追従を含むタスクのために収集されたデモに本質性を示す。
専門家データにおける相反性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2020-12-26T08:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。