論文の概要: CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion
- arxiv url: http://arxiv.org/abs/2506.14769v1
- Date: Tue, 17 Jun 2025 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.606178
- Title: CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion
- Title(参考訳): CDP:因果拡散によるロバスト自己回帰的ビズモータ政策学習を目指して
- Authors: Jiahua Ma, Yiran Qin, Yixiong Li, Xuanqi Liao, Yulan Guo, Ruimao Zhang,
- Abstract要約: 拡散政策(DP)は、ロボットが行動拡散を通じて専門家のデモンストレーションを模倣することで複雑な行動を学ぶことを可能にする。
本稿では, 過去の行動系列を条件付け, 行動予測を強化するトランスフォーマーに基づく新しい拡散モデルであるCausal Diffusion Policy (CDP)を提案する。
- 参考スコア(独自算出の注目度): 35.77529453723351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Policy (DP) enables robots to learn complex behaviors by imitating expert demonstrations through action diffusion. However, in practical applications, hardware limitations often degrade data quality, while real-time constraints restrict model inference to instantaneous state and scene observations. These limitations seriously reduce the efficacy of learning from expert demonstrations, resulting in failures in object localization, grasp planning, and long-horizon task execution. To address these challenges, we propose Causal Diffusion Policy (CDP), a novel transformer-based diffusion model that enhances action prediction by conditioning on historical action sequences, thereby enabling more coherent and context-aware visuomotor policy learning. To further mitigate the computational cost associated with autoregressive inference, a caching mechanism is also introduced to store attention key-value pairs from previous timesteps, substantially reducing redundant computations during execution. Extensive experiments in both simulated and real-world environments, spanning diverse 2D and 3D manipulation tasks, demonstrate that CDP uniquely leverages historical action sequences to achieve significantly higher accuracy than existing methods. Moreover, even when faced with degraded input observation quality, CDP maintains remarkable precision by reasoning through temporal continuity, which highlights its practical robustness for robotic control under realistic, imperfect conditions.
- Abstract(参考訳): 拡散政策(DP)は、ロボットが行動拡散を通じて専門家のデモンストレーションを模倣することで複雑な行動を学ぶことを可能にする。
しかし、現実的なアプリケーションでは、ハードウェアの制限はしばしばデータ品質を低下させ、リアルタイムの制約はモデル推論を瞬時状態とシーン観察に制限する。
これらの制限は、専門家によるデモンストレーションから学ぶことの有効性を著しく低下させ、結果としてオブジェクトのローカライゼーション、把握計画、長期タスクの実行に失敗する。
これらの課題に対処するため,従来の行動系列を条件づけることによって行動予測を高める新しいトランスフォーマーに基づく拡散モデルであるCausal Diffusion Policy (CDP)を提案する。
さらに、自己回帰推論に関連する計算コストを軽減するため、キャッシュ機構を導入して、過去の時間ステップから注目キーと値のペアを格納し、実行中の冗長な計算を大幅に削減する。
様々な2次元および3次元の操作タスクにまたがるシミュレーションと実世界の両方の環境における大規模な実験により、CDPは歴史的行動シーケンスをユニークに活用し、既存の手法よりもはるかに高い精度を達成することを示した。
さらに、劣化した入力観察品質に直面しても、CDPは時間的連続性による推論による顕著な精度を維持しており、現実的で不完全な条件下でのロボット制御の実用的堅牢性を強調している。
関連論文リスト
- Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction [7.918703013303246]
我々は,高次元連続行動空間における決定を学習する上での課題に対処する潜在マクロ行動プランナー(L-MAP)を提案する。
L-MAPは状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を通して時間的に拡張されたマクロアクションの集合を学習する
連続制御タスクを含むオフラインRL設定では、L-MAPは離散潜在アクションを効率よく探索し、高い期待値が得られる。
論文 参考訳(メタデータ) (2025-02-28T16:02:23Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Learning from Demonstration with Implicit Nonlinear Dynamics Models [16.26835655544884]
本研究では、時間的ダイナミクスをモデル化するための可変な動的特性を持つ固定非線形力学系を含むリカレントニューラルネットワーク層を開発する。
LASA Human Handwriting データセットを用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。
論文 参考訳(メタデータ) (2024-09-27T14:12:49Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Distribution-Aware Continual Test-Time Adaptation for Semantic Segmentation [33.75630514826721]
実世界の応用において, セマンティックセグメンテーションCTTAを効率的かつ実用的なものにするための分散対応チューニング(DAT)手法を提案する。
DATは、連続的な適応プロセス中にデータ分布に基づいて、トレーニング可能なパラメータの2つの小さなグループを適応的に選択し、更新する。
我々は2つの広く使われているセマンティックセマンティックセマンティクスCTTAベンチマークで実験を行い、従来の最先端手法と比較して有望な性能を実現した。
論文 参考訳(メタデータ) (2023-09-24T10:48:20Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。