論文の概要: FocusVLA: Focused Visual Utilization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.28740v1
- Date: Mon, 30 Mar 2026 17:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.550567
- Title: FocusVLA: Focused Visual Utilization for Vision-Language-Action Models
- Title(参考訳): FocusVLA:ビジョン・ランゲージ・アクションモデルのための視覚的利用
- Authors: Yichi Zhang, Weihao Yuan, Yizhuo Zhang, Xidong Zhang, Jia Wan,
- Abstract要約: VLA(Vision-Language-Action)モデルは、リッチビジョン言語情報に対する条件付けによってアクション生成を改善する。
FocusVLAは,タスク関連視覚領域にモデルの注意を向け,視覚を効果的に行動にブリッジする新しいパラダイムである。
- 参考スコア(独自算出の注目度): 12.859683124954339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models improve action generation by conditioning policies on rich vision-language information. However, current auto-regressive policies are constrained by three bottlenecks: (1) architectural bias drives models to overlook visual details, (2) an excessive number of visual tokens makes attention difficult to focus on the correct regions, and (3) task-irrelevant visual information introduces substantial noise - together severely impairing the quality of action. In this paper, we investigate how to effectively utilize different visual representations for action generation. To this end, we first empirically validate the above issues and show that VLA performance is primarily limited by how visual information is utilized, rather than by the quality of visual representations. Based on these insights, we introduce FocusVLA, a novel paradigm that directs the model's attention to task-relevant visual regions to effectively bridge vision to action. Specifically, we first propose Modality Cascaded Attention to eliminate shortcut pathways, thereby compelling VLA models to rely on task-relevant visual details for action generation. Furthermore, we propose Focus Attention, which dynamically selects task-relevant visual patches to control information quantity while explicitly modulating their influence to suppress task-irrelevant noise. Extensive experiments on both simulated and real-world robotic benchmarks demonstrate that FocusVLA not only effectively leverages visual details to perform dexterous manipulations, but also substantially improves performance and accelerates convergence across a variety of tasks.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、リッチビジョン言語情報に対する条件付けによってアクション生成を改善する。
しかし、現在の自己回帰政策は、3つのボトルネックによって制約されている。(1) アーキテクチャバイアスがモデルに視覚的詳細を見落としさせ、(2) 過度な視覚的トークンの数が、適切な領域に注意を集中させることを難しくし、(3) タスク非関連視覚情報には重大なノイズが伴い、行動の質を著しく損なう。
本稿では,アクション生成に異なる視覚表現を効果的に活用する方法を検討する。
この目的のために、我々はまず上記の問題を実証的に検証し、VLAの性能は視覚情報の質よりも視覚情報の活用方法に制限されていることを示す。
これらの知見に基づいて,タスク関連視覚領域へのモデルの注意を向け,視覚を効果的に行動にブリッジする新しいパラダイムであるFocusVLAを紹介する。
具体的には,まずモダリティカスケード・アテンション(Modality Cascaded Attention)を提案する。
さらに,タスク関連視覚パッチを動的に選択して情報量を制御し,その影響を明示的に調整し,タスク関連雑音を抑制するFocus Attentionを提案する。
シミュレーションと実世界の両方のロボットベンチマークに関する大規模な実験は、FocusVLAが視覚的詳細を効果的に活用して巧妙な操作を行うだけでなく、パフォーマンスを大幅に改善し、さまざまなタスクの収束を加速することを示した。
関連論文リスト
- Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models [66.96421290733126]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
論文 参考訳(メタデータ) (2026-03-16T17:59:54Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception [8.542874528320004]
既存のビジョンモデルと固定RGB-Dカメラシステムは、細かな詳細取得で広域範囲を調整できない。
本研究では,アクティブな視覚知覚のためのロボット眼球であるEyeVLAを提案する。
論文 参考訳(メタデータ) (2025-11-19T09:42:08Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。