論文の概要: Trace-Focused Diffusion Policy for Multi-Modal Action Disambiguation in Long-Horizon Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.07388v1
- Date: Sat, 07 Feb 2026 06:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.251606
- Title: Trace-Focused Diffusion Policy for Multi-Modal Action Disambiguation in Long-Horizon Robotic Manipulation
- Title(参考訳): 長軸ロボットマニピュレーションにおける多モード動作曖昧化のためのトレース焦点拡散政策
- Authors: Yuxuan Hu, Xiangyu Chen, Chuhao Zhou, Yuxi Liu, Gen Li, Jindou Jia, Jianfei Yang,
- Abstract要約: Trace-Focused Diffusion Policy (TF-DP) は、ロボットの実行履歴にアクション生成を明示的に条件付ける拡散ベースのフレームワークである。
実世界のロボット操作作業におけるTF-DPの評価を行った。
- 参考スコア(独自算出の注目度): 27.077503086179863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative model-based policies have shown strong performance in imitation-based robotic manipulation by learning action distributions from demonstrations. However, in long-horizon tasks, visually similar observations often recur across execution stages while requiring distinct actions, which leads to ambiguous predictions when policies are conditioned only on instantaneous observations, termed multi-modal action ambiguity (MA2). To address this challenge, we propose the Trace-Focused Diffusion Policy (TF-DP), a simple yet effective diffusion-based framework that explicitly conditions action generation on the robot's execution history. TF-DP represents historical motion as an explicit execution trace and projects it into the visual observation space, providing stage-aware context when current observations alone are insufficient. In addition, the induced trace-focused field emphasizes task-relevant regions associated with historical motion, improving robustness to background visual disturbances. We evaluate TF-DP on real-world robotic manipulation tasks exhibiting pronounced multi-modal action ambiguity and visually cluttered conditions. Experimental results show that TF-DP improves temporal consistency and robustness, outperforming the vanilla diffusion policy by 80.56 percent on tasks with multi-modal action ambiguity and by 86.11 percent under visual disturbances, while maintaining inference efficiency with only a 6.4 percent runtime increase. These results demonstrate that execution-trace conditioning offers a scalable and principled approach for robust long-horizon robotic manipulation within a single policy.
- Abstract(参考訳): モデルに基づく生成ポリシーは、実演から行動分布を学習することにより、模倣に基づくロボット操作において強い性能を示している。
しかし、ロングホライゾンタスクでは、視覚的に類似した観察が実行段階で再帰し、異なる行動を必要とすることがあり、これは、ポリシーが即時的な観察にのみ条件付けられている場合、マルチモーダルアクション曖昧性 (MA2) と呼ばれる曖昧な予測をもたらす。
この課題に対処するために,ロボットの実行履歴に対して動作生成を明示的に規定する,シンプルで効果的な拡散ベースのフレームワークであるTrace-Focused Diffusion Policy (TF-DP)を提案する。
TF-DPは、歴史的動きを明示的な実行トレースとして表現し、それを視覚的な観察空間に投影し、現在の観測だけでは不十分な段階認識コンテキストを提供する。
さらに、トレーサ重視のフィールドは、歴史的動きに関連するタスク関連領域を強調し、背景視覚障害に対するロバスト性を向上させる。
実世界のロボット操作作業におけるTF-DPの評価を行った。
実験の結果、TF-DPは時間的一貫性と堅牢性を向上し、バニラ拡散政策を80.66%上回り、マルチモーダル動作の曖昧さを伴うタスクを86.11パーセント上回った。
これらの結果から,単一ポリシ内での堅牢な長距離ロボット操作に対して,実行トレース条件がスケーラブルかつ原則化されたアプローチを提供することが示された。
関連論文リスト
- See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion [35.77529453723351]
拡散政策(DP)は、ロボットが行動拡散を通じて専門家のデモンストレーションを模倣することで複雑な行動を学ぶことを可能にする。
本稿では, 過去の行動系列を条件付け, 行動予測を強化するトランスフォーマーに基づく新しい拡散モデルであるCausal Diffusion Policy (CDP)を提案する。
論文 参考訳(メタデータ) (2025-06-17T17:59:12Z) - Offline Action-Free Learning of Ex-BMDPs by Comparing Diverse Datasets [87.62730694973696]
本稿では,エージェント間の制御可能な特徴ダイナミクスの違いを利用して表現を学習する,サンプル効率のよいアルゴリズムCRAFTを紹介する。
我々はCRAFTの性能を理論的に保証し、おもちゃの例でその実現可能性を示す。
論文 参考訳(メタデータ) (2025-03-26T22:05:57Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。