論文の概要: Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.15618v1
- Date: Mon, 16 Mar 2026 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.729417
- Title: Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
- Title(参考訳): アクト前に見る:ビジョン・ランゲージ・アクション・モデルのためのビジョン・ファウンデーションの表現を強化する
- Authors: Yulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
- 参考スコア(独自算出の注目度): 66.96421290733126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integrating visual observations conditioned on language instructions. Although recent works have sought to enhance the visual capabilities of VLA models, most approaches treat the LLM backbone as a black box, providing limited insight into how visual information is grounded into action generation. Therefore, we perform a systematic analysis of multiple VLA models across different action-generation paradigms and observe that sensitivity to visual tokens progressively decreases in deeper layers during action generation. Motivated by this observation, we propose \textbf{DeepVision-VLA}, built on a \textbf{Vision-Language Mixture-of-Transformers (VL-MoT)} framework. This framework enables shared attention between the vision foundation model and the VLA backbone, injecting multi-level visual features from the vision expert into deeper layers of the VLA backbone to enhance visual representations for precise and complex manipulation. In addition, we introduce \textbf{Action-Guided Visual Pruning (AGVP)}, which leverages shallow-layer attention to prune irrelevant visual tokens while preserving task-relevant ones, reinforcing critical visual cues for manipulation with minimal computational overhead. DeepVision-VLA outperforms prior state-of-the-art methods by 9.0\% and 7.5\% on simulated and real-world tasks, respectively, providing new insights for the design of visually enhanced VLA models.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、ロボット操作のための有望なパラダイムとして登場し、信頼性の高い行動予測は、言語命令に規定された視覚的観察を正確に解釈し統合することに依存している。
近年の研究では、VLAモデルの視覚能力の向上が試みられているが、ほとんどのアプローチでは、LLMバックボーンをブラックボックスとして扱い、視覚情報のアクション生成への基盤に関する限られた洞察を与えている。
そこで我々は,異なるアクション生成パラダイムをまたいだ複数のVLAモデルの体系的解析を行い,アクション生成において,視覚トークンに対する感度がより深い層で徐々に低下していくことを観察した。
本研究の目的は, 変圧器(VL-MoT) フレームワーク上に構築した \textbf{DeepVision-VLA} を提案することである。
このフレームワークは、ビジョンファンデーションモデルとVLAバックボーン間の共通注意を可能にし、視覚専門家からVLAバックボーンの深い層に多層的な視覚的特徴を注入することで、正確で複雑な操作のための視覚的表現を強化する。
さらに,タスク関連トークンの保存や,計算オーバーヘッドの最小化による操作のための重要な視覚的手がかりの強化を図りながら,暗黙の注意を不適切な視覚的トークンに役立てる,AGVP(textbf{Action-Guided Visual Pruning)を導入する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクにおいて、9.0\%と7.5\%の先行した最先端の手法より優れており、視覚的に強化されたVLAモデルの設計に対する新たな洞察を提供する。
関連論文リスト
- VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models [26.542479606920423]
VLA(Vision-Language-Action)モデルは、幅広いロボット操作タスクにおいて強力なパフォーマンスを示している。
成功にもかかわらず、大きな事前訓練されたVLAモデルをアクション空間に拡張することで、視覚-アクションのミスアライメントを誘発することができる。
VLAモデルにおける視覚的条件付けを明確に強化するトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T20:59:29Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver [35.25196177784228]
本稿では,暗黙的な基礎パラダイムを持つ再構成型VLAモデルReconVLAを提案する。
拡散変換器は、モデルの視覚出力に基づいて画像の視線領域を再構成する。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当てる。
論文 参考訳(メタデータ) (2025-08-14T04:20:19Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。