論文の概要: Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation
- arxiv url: http://arxiv.org/abs/2606.04046v1
- Date: Tue, 02 Jun 2026 07:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.263859
- Title: Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation
- Title(参考訳): Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation
- Authors: Boyuan Xiao, Bohong Chen, Yumeng Li, Ji Feng, Yao-Xiang Ding, Kun Zhou,
- Abstract要約: Vision-LanguageとVision-Language-Action Models (VLMs & VLAs)は、異なる利点を持つ強力なツールである。
VLMは長期計画において優れているが、VLAはリアクティブ制御において優れている。
視覚幻覚は、モデルがタスク関連オブジェクトとイントラクタを区別できないために生じる。
原則として、無関係なオブジェクトをフィルタリングしながら、重要なオブジェクトを正確に識別し、焦点を合わせることが、この制限を破る鍵となる。
- 参考スコア(独自算出の注目度): 26.39892022038146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In embodied vision-language decision making tasks such as robotic manipulation and navigation, Vision-Language and Vision-Language-Action Models (VLMs & VLAs) are powerful tools with different benefits: VLMs are better at long-term planning, while VLAs are better at reactive control. However, their performance is limited by the same perceptual bottleneck: visual hallucinations arise due to the models' inability to distinguish task-relevant objects from distractors. In principle, accurate identification and focus on critical objects while filtering out irrelevant ones is the key to break this limitation. A straightforward solution is one-step focus: directly attending to essential objects. However, this approach proves ineffective because effective focus inherently requires deep scene understanding. To this end, we propose SceneDiver, a coarse-to-fine focus plan generation method for VLMs leveraging their long-term planning abilities, that first constructs a holistic scene graph to establish initial comprehension, then progressively decomposes the task into simpler sub-problems through an iterative cycle of recognition, understanding, and analysis. To enable reactive control, we also design a lightweight adapter for distilling the deliberate focus ability into VLAs. Evaluations on standard embodied AI benchmarks confirm that our method substantially reduces visual hallucinations for both VLMs and VLAs, while preserving computational efficiency in tasks requiring fast execution. Our code and data are released at: https://future-item.github.io/SceneDiver.
- Abstract(参考訳): ロボット操作やナビゲーションといった視覚言語による意思決定タスクの具体化において、ビジョンランゲージとビジョンランゲージ・アクション・モデル(VLMs & VLAs)は、さまざまなメリットを持つ強力なツールである。
しかし、それらの性能は同じ知覚的ボトルネックによって制限されている: 視覚幻覚は、モデルがタスク関連オブジェクトと気晴らしオブジェクトを区別できないために生じる。
原則として、無関係なオブジェクトをフィルタリングしながら、重要なオブジェクトを正確に識別し、焦点を合わせることが、この制限を破る鍵となる。
簡単な解決策は1ステップの焦点で、本質的なオブジェクトに直接参加することです。
しかし、効果的焦点が本質的に深いシーン理解を必要とするため、このアプローチは効果がないことが証明されている。
そこで本研究では,VLMの長期計画能力を活用した粗大なフォーカスプラン生成手法であるSceneDiverを提案し,まず全体論的なシーングラフを構築し,認識,理解,分析の反復サイクルを通じて,タスクをより単純なサブプロブレムに段階的に分解する。
反応制御を実現するために,VLAに意図的なフォーカス能力を蒸留するための軽量アダプタを設計する。
標準的なAIベンチマークによる評価では、高速な実行を必要とするタスクにおいて計算効率を保ちながら、VLMとVLAの両方の視覚幻覚を大幅に低減する。
私たちのコードとデータは、https://future-item.github.io/SceneDiver.orgでリリースされています。
関連論文リスト
- FocusVLA: Focused Visual Utilization for Vision-Language-Action Models [12.859683124954339]
VLA(Vision-Language-Action)モデルは、リッチビジョン言語情報に対する条件付けによってアクション生成を改善する。
FocusVLAは,タスク関連視覚領域にモデルの注意を向け,視覚を効果的に行動にブリッジする新しいパラダイムである。
論文 参考訳(メタデータ) (2026-03-30T17:50:54Z) - Vision-Language Models Unlock Task-Centric Latent Actions [75.53481518882275]
本稿では、視覚言語モデル(VLM)の常識推論能力を利用して、迅速な表現を実現することを提案する。
そこで本研究では,VLMに障害を無視するよう求めれば,遅延動作の質が大幅に向上し,解離メタワールドにおける下流の成功率が最大6倍に向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T08:38:59Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference [17.901428758295307]
VLA(Vision-Language-Action)モデルでは、AIの具現化に大きな期待が寄せられているが、計算コストによってリアルタイムのデプロイメントが制限されている。
本稿では,VLAモデルのデュアルシステム特性に適合する汎用的なプラグ・アンド・プレイ型VLA固有のトークンプルー法であるVLA-Prunerを提案する。
VLA-Prunerは、複数のVLAアーキテクチャと多様なロボットタスクにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-20T15:16:09Z) - Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models [8.452688845632995]
我々は,視覚・言語・アクション(VLA)モデルのためのオブジェクト・エージェント中心のトークン化であるOat-VLAを提案する。
Oat-VLAは、パフォーマンスを犠牲にすることなく、視覚トークンの数をわずかに減らすことができる。
我々は,Oat-VLA が LIBERO スイート上で OpenVLA の少なくとも2倍の速度で収束していることを明らかにする。
論文 参考訳(メタデータ) (2025-09-28T05:42:53Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。