論文の概要: Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2506.09990v1
- Date: Wed, 11 Jun 2025 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.191576
- Title: Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
- Title(参考訳): Chain-of-Action:ロボットマニピュレーションのための軌道自己回帰モデリング
- Authors: Wenbo Zhang, Tianrun Hu, Yanyuan Qiao, Hanbo Zhang, Yuchu Qin, Yang Li, Jiajun Liu, Tao Kong, Lingqiao Liu, Xiao Ma,
- Abstract要約: チェーン・オブ・アクション(Chain-of-Action, CoA)は、トラジェクティブ・オートレグレッシブ・モデリング(Trajectory Autoregressive Modeling)に基づいて構築されたビジュオ・モビリティ・パラダイムである。
CoAは、タスク固有のゴールを明示した後方推論によって、全軌道を生成する。
我々は60のRLBenchタスクと8つの実世界の操作タスクにまたがる最先端のパフォーマンスをCoAで観察する。
- 参考スコア(独自算出の注目度): 37.748111048944274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Chain-of-Action (CoA), a novel visuo-motor policy paradigm built upon Trajectory Autoregressive Modeling. Unlike conventional approaches that predict next step action(s) forward, CoA generates an entire trajectory by explicit backward reasoning with task-specific goals through an action-level Chain-of-Thought (CoT) process. This process is unified within a single autoregressive structure: (1) the first token corresponds to a stable keyframe action that encodes the task-specific goals; and (2) subsequent action tokens are generated autoregressively, conditioned on the initial keyframe and previously predicted actions. This backward action reasoning enforces a global-to-local structure, allowing each local action to be tightly constrained by the final goal. To further realize the action reasoning structure, CoA incorporates four complementary designs: continuous action token representation; dynamic stopping for variable-length trajectory generation; reverse temporal ensemble; and multi-token prediction to balance action chunk modeling with global structure. As a result, CoA gives strong spatial generalization capabilities while preserving the flexibility and simplicity of a visuo-motor policy. Empirically, we observe CoA achieves the state-of-the-art performance across 60 RLBench tasks and 8 real-world manipulation tasks.
- Abstract(参考訳): 本稿では, トラジェクティブ自己回帰モデルに基づく新しいビジュオモチーフ・ポリシーパラダイムであるChain-of-Action(CoA)を提案する。
次のステップアクション(s)を前方に予測する従来のアプローチとは異なり、CoAはアクションレベルのチェーン・オブ・ソート(CoT)プロセスを通じて、タスク固有の目標を明示的な後方推論によって全軌道を生成する。
1)最初のトークンは、タスク固有の目標を符号化する安定なキーフレームアクションに対応し、(2)その後のアクショントークンは、自己回帰的に生成され、初期キーフレームと予測されたアクションに条件付けされる。
この後ろ向きのアクション推論は、グローバルからローカルへの構造を強制し、各ローカルアクションが最終目標によって厳格に拘束されるようにする。
アクション推論構造をさらに実現するために、CoAは4つの補完的な設計を取り入れている。連続的なアクショントークン表現、可変長軌道生成の動的停止、逆時間アンサンブル、アクションチャンクモデリングとグローバル構造とのバランスをとるマルチトークン予測である。
その結果、CoAはビジュオモトラーポリシーの柔軟性と単純さを維持しつつ、強力な空間一般化機能を提供する。
実証的に、CoAが60のRLBenchタスクと8つの実世界の操作タスクにまたがる最先端のパフォーマンスを達成するのを観察する。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Generating Multimodal Driving Scenes via Next-Scene Prediction [24.84840824118813]
自律運転(AD)における生成モデルは、多様なシーン生成を可能にするが、既存の方法は、限られた範囲のモダリティをキャプチャすることで不足する。
本稿では,4つの主要なデータモダリティを組み込んだマルチモーダル生成フレームワークを提案する。
我々のフレームワークは、拡張シーケンス上で複雑で現実的な運転シーンを効果的に生成し、マルチモーダル整合性を確保し、シーン要素のきめ細かい制御を提供する。
論文 参考訳(メタデータ) (2025-03-19T07:20:16Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。