論文の概要: ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models
- arxiv url: http://arxiv.org/abs/2603.01490v1
- Date: Mon, 02 Mar 2026 05:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.707027
- Title: ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models
- Title(参考訳): ATA:視覚言語行動モデルに対する注意誘導型および行動誘導型推論による意図的推論
- Authors: Cheng Yang, Jianhao Jiao, Lingyi Huang, Jinqi Xiao, Zhexiang Tang, Yu Gong, Yibiao Ying, Yang Sui, Jintian Lin, Wen Huang, Bo Yuan,
- Abstract要約: VLA(Vision-Language-Action)モデルは、アクションとタスクの完了を予測するために、イメージ、言語命令、ロボット状態を含む現在の観察に依存している。
本稿では,VLA推論に暗黙的推論を導入する学習自由フレームワークATAを提案する。
ATAはVLAモデルのためのプラグアンドプレイの暗黙の推論アプローチであり、軽量だが効果的である。
- 参考スコア(独自算出の注目度): 23.724460067995395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models rely on current observations, including images, language instructions, and robot states, to predict actions and complete tasks. While accurate visual perception is crucial for precise action prediction and execution, recent work has attempted to further improve performance by introducing explicit reasoning during inference. However, such approaches face significant limitations. They often depend on data-intensive resources such as Chain-of-Thought (CoT) style annotations to decompose tasks into step-by-step reasoning, and in many cases require additional visual grounding annotations (e.g., bounding boxes or masks) to highlight relevant image regions. Moreover, they involve time-consuming dataset construction, labeling, and retraining, which ultimately results in longer inference sequences and reduced efficiency. To address these challenges, we propose ATA, a novel training-free framework that introduces implicit reasoning into VLA inference through complementary attention-guided and action-guided strategies. Unlike CoT or explicit visual-grounding methods, ATA formulates reasoning implicitly by integrating attention maps with an action-based region of interest (RoI), thereby adaptively refining visual inputs without requiring extra training or annotations. ATA is a plug-and-play implicit reasoning approach for VLA models, lightweight yet effective. Extensive experiments show that it consistently improves task success and robustness while preserving, and even enhancing, inference efficiency.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、アクションとタスクの完了を予測するために、イメージ、言語命令、ロボット状態を含む現在の観察に依存している。
正確な視覚知覚は、正確な行動予測と実行には不可欠であるが、近年の研究では、推論中に明示的な推論を導入することで、さらなるパフォーマンス向上が試みられている。
しかし、このようなアプローチは重大な制限に直面している。
それらはしばしば、タスクをステップバイステップの推論に分解するためにChain-of-Thought(CoT)スタイルのアノテーションのようなデータ集約的なリソースに依存し、多くの場合、関連するイメージ領域を強調するために、追加のビジュアルグラウンドティングアノテーション(例えば、バウンディングボックスやマスク)を必要とする。
さらに、データセットの構築、ラベル付け、再トレーニングに時間を要するため、最終的には推論シーケンスが長くなり、効率が低下する。
これらの課題に対処するため,我々は,VLA推論に暗黙的推論を導入する新たな学習自由フレームワークATAを提案する。
CoTや明示的なビジュアルグラウンド法とは異なり、ATAは、注意マップをアクションベースの関心領域(RoI)と統合することで暗黙的に推論を定式化し、追加のトレーニングやアノテーションを必要とせずに視覚入力を適応的に洗練する。
ATAはVLAモデルのためのプラグアンドプレイの暗黙の推論アプローチであり、軽量だが効果的である。
大規模な実験では、タスクの成功と堅牢性を継続的に改善し、予測効率を保ち、さらに強化することさえ示している。
関連論文リスト
- Action-Guided Attention for Video Action Anticipation [14.34017272203601]
Action-Guided Attention(AGA)は、予測されたアクションシーケンスをクエリやキーとして明示的に活用してシーケンスモデリングをガイドするアテンションメカニズムである。
AGAは検証から見えないテストセットまでよく一般化する。
論文 参考訳(メタデータ) (2026-03-02T11:13:45Z) - Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding [4.918510966192794]
本稿では,教師付き学習モデルとオープンボキャブラリ視覚モデルの比較評価を行った。
FloodNet+、RescueNet、DFire、LADDなど、複数のデータセットにわたるセマンティックセグメンテーションとオブジェクト検出に重点を置いています。
評価されたベンチマークでもっとも注目すべき点は、教師付きトレーニングが最も信頼できるアプローチであることだ。
論文 参考訳(メタデータ) (2026-03-01T23:50:08Z) - SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文 参考訳(メタデータ) (2026-02-04T04:48:16Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning [97.29507133345766]
我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。
様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-01-14T18:59:59Z) - Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。
提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-24T14:59:49Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。