Fugu-MT 論文翻訳(概要): VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

論文の概要: VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

arxiv url: http://arxiv.org/abs/2603.14523v1
Date: Sun, 15 Mar 2026 17:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.86559
Title: VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning
Title（参考訳）: VLA-Thinker:画像推論による視覚・言語・行動モデルの構築
Authors: Chaoyang Wang, Wenrui Bao, Sicheng Gao, Bingxin Xu, Yu Tian, Yogesh S. Rawat, Yunhao Ge, Yuzhang Shang,
Abstract要約: VLA(Vision-Language-Action)モデルは、インテリジェンスを具現化する有望な能力を示している。動的に起動可能な推論行動として知覚をモデル化する思考とイメージの推論フレームワークであるVLA-Thinkerを提案する。
参考スコア（独自算出の注目度）: 40.136343449141265
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have shown promising capabilities for embodied intelligence, but most existing approaches rely on text-based chain-of-thought reasoning where visual inputs are treated as static context. This limits the ability of the model to actively revisit the environment and resolve ambiguities during long-horizon tasks. We propose VLA-Thinker, a thinking-with-image reasoning framework that models perception as a dynamically invocable reasoning action. To train such a system, we introduce a two-stage training pipeline consisting of (1) an SFT cold-start phase with curated visual Chain-of-Thought data to activate structured reasoning and tool-use behaviors, and (2) GRPO-based reinforcement learning to align complete reasoning-action trajectories with task-level success. Extensive experiments on LIBERO and RoboTwin 2.0 benchmarks demonstrate that VLA-Thinker significantly improves manipulation performance, achieving 97.5% success rate on LIBERO and strong gains across long-horizon robotic tasks. Project and Codes: https://cywang735.github.io/VLA-Thinker/ .
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、インテリジェンスを具現化するための有望な能力を示しているが、既存のほとんどのアプローチは、視覚的な入力が静的なコンテキストとして扱われるテキストベースの連鎖推論に依存している。これにより、長期的タスクの間、モデルが環境を積極的に見直し、あいまいさを解決する能力が制限される。動的に起動可能な推論行動として知覚をモデル化する思考とイメージの推論フレームワークであるVLA-Thinkerを提案する。このようなシステムをトレーニングするために,(1) 構造化推論とツール使用動作を活性化する視覚的チェーン・オブ・ソートデータを備えたSFTコールドスタートフェーズと,(2) GRPO に基づく強化学習により,完全な推論行動軌跡をタスクレベルの成功と整合させる2段階のトレーニングパイプラインを導入する。 LIBERO と RoboTwin 2.0 ベンチマークの大規模な実験により、VLA-Thinker は操作性能を大幅に改善し、LIBERO で97.5% の成功率、長期のロボット作業で強い利益を得たことが示されている。プロジェクトとコード:https://cywang735.github.io/VLA-Thinker/。

関連論文リスト

ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying [15.728211622542267]
ViThinkerは、要求に応じて専門家による視覚的特徴を合成するきっかけとなる意思決定トークンを視覚言語モデルが自律的に生成することを可能にするフレームワークである。 ViThinkerは、トレーニング中に視覚専門家の能力を内部化し、外部ツールコールなしで推論中に生成的なメンタルシミュレーションを実行する。
論文参考訳（メタデータ） (2026-02-02T22:29:57Z)
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。 Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。 EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文参考訳（メタデータ） (2025-12-16T18:26:38Z)
Guiding the Inner Eye: A Framework for Hierarchical and Flexible Visual Grounded Reasoning [6.800544911407401]
GRiP(Guided Reasoning and Perception)は、視覚的根拠に基づく推論のための新しいトレーニングフレームワークである。 GRiPは、モデルの知覚的焦点と論理的経路を明確に導くことによって、堅牢で柔軟な視覚的基盤推論を育む。 GRiPは、非常に挑戦的なTreeBenchとV* Benchで、オープンソースモデルの最先端の結果を達成する。
論文参考訳（メタデータ） (2025-11-27T07:18:25Z)
ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。 Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文参考訳（メタデータ） (2025-10-28T10:42:57Z)
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文参考訳（メタデータ） (2025-10-01T17:58:05Z)
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文参考訳（メタデータ） (2025-09-30T06:37:47Z)
dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文参考訳（メタデータ） (2025-09-30T02:36:11Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。