Fugu-MT 論文翻訳(概要): ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

論文の概要: ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2601.11404v1
Date: Fri, 16 Jan 2026 16:17:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.815632
Title: ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models
Title（参考訳）: ACoT-VLA:ビジョン・ランゲージ・アクション・モデルのためのアクション・チェーン・オブ・サート
Authors: Linqing Zhong, Yi Liu, Yifei Wei, Ziyu Xiong, Maoqing Yao, Si Liu, Guanghui Ren,
Abstract要約: Action Chain-of-Thought (ACoT) は、推論プロセス自体が粗いアクション意図の構造化シーケンスとして定式化されるパラダイムである。我々は2つの補完的要素: Explicit Action Reasoner (EAR) と Implicit Action Reasoner (IAR) を紹介する。
参考スコア（独自算出の注目度）: 15.5794433640853
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models have emerged as essential generalist robot policies for diverse manipulation tasks, conventionally relying on directly translating multimodal inputs into actions via Vision-Language Model (VLM) embeddings. Recent advancements have introduced explicit intermediary reasoning, such as sub-task prediction (language) or goal image synthesis (vision), to guide action generation. However, these intermediate reasoning are often indirect and inherently limited in their capacity to convey the full, granular information required for precise action execution. Instead, we posit that the most effective form of reasoning is one that deliberates directly in the action space. We introduce Action Chain-of-Thought (ACoT), a paradigm where the reasoning process itself is formulated as a structured sequence of coarse action intents that guide the final policy. In this paper, we propose ACoT-VLA, a novel architecture that materializes the ACoT paradigm. Specifically, we introduce two complementary components: an Explicit Action Reasoner (EAR) and Implicit Action Reasoner (IAR). The former proposes coarse reference trajectories as explicit action-level reasoning steps, while the latter extracts latent action priors from internal representations of multimodal input, co-forming an ACoT that conditions the downstream action head to enable grounded policy learning. Extensive experiments in real-world and simulation environments demonstrate the superiority of our proposed method, which achieves 98.5%, 84.1%, and 47.4% on LIBERO, LIBERO-Plus and VLABench, respectively.
Abstract（参考訳）: Vision-Language-Action(VLA)モデルは、様々な操作タスクに対して不可欠な汎用的なロボットポリシーとして登場し、従来はVision-Language Model(VLM)埋め込みを通じて、マルチモーダル入力を直接アクションに変換することに依存していた。近年の進歩は、行動生成を導くために、サブタスク予測(言語)やゴール画像合成(ビジョン)のような明示的な中間推論を導入している。しかしながら、これらの中間的推論は、しばしば間接的かつ本質的には、正確なアクション実行に必要な完全な粒度の情報を伝達する能力に制限される。その代わり、最も効果的な推論形式は、アクション空間内で直接意図的に行うものであると仮定する。 ACoT(Action Chain-of-Thought)は、推論プロセス自体が最終方針を導く粗い行動意図の構造化シーケンスとして定式化されるパラダイムである。本稿では,ACoTパラダイムを実現する新しいアーキテクチャであるACoT-VLAを提案する。具体的には、Explicit Action Reasoner (EAR) と Implicit Action Reasoner (IAR) の2つの相補的なコンポーネントを紹介する。前者は、粗い参照軌跡を明示的な行動レベルの推論ステップとして提案し、後者は、マルチモーダル入力の内部表現から潜在アクション先行を抽出し、下流アクションヘッドを条件付けして、接地されたポリシー学習を可能にするACoTを形成する。実環境およびシミュレーション環境における大規模実験により, LIBERO, LIBERO-Plus, VLABenchの98.5%, 84.1%, 47.4%を達成できた。

関連論文リスト

Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。 LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文参考訳（メタデータ） (2026-03-13T13:08:26Z)
Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification [17.948161564138033]
Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる命令追従を改善する。しかし、正しいテキストプランであっても、生成したアクションは計画の意図した結果、特にアウト・オブ・ディストリビューションのシナリオを見逃す可能性がある。我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
論文参考訳（メタデータ） (2025-10-18T00:38:45Z)
Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools [41.993750134878766]
Video-STARは、オープン語彙行動認識のためのツール強化学習とコンテキストサブモーション分解を調和させるフレームワークである。アクションをモノリシックなエンティティとして扱う従来の方法とは異なり、我々のアプローチは、アクションをきめ細かなマッチングのための差別的なサブモーションに革新的に分解する。本手法は,テキスト中心の推論から視覚的接地推論へ伝達する,明示的な監督を伴わずに,外部ツールを自律的に活用し,サブモーションパターンの優先順位付けを行う。
論文参考訳（メタデータ） (2025-10-09T17:20:44Z)
IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文参考訳（メタデータ） (2025-10-09T04:49:46Z)
Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。 Instruct-Verify-and-Act(IVA)を提案する。実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文参考訳（メタデータ） (2025-08-22T10:54:33Z)
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文参考訳（メタデータ） (2025-03-13T17:59:52Z)
Code Models are Zero-shot Precondition Reasoners [83.8561159080672]
シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
論文参考訳（メタデータ） (2023-11-16T06:19:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。