Fugu-MT 論文翻訳(概要): Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs

論文の概要: Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs

arxiv url: http://arxiv.org/abs/2506.22146v4
Date: Mon, 10 Nov 2025 11:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-11 14:55:59.990847
Title: Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs
Title（参考訳）: VLMのバインディング問題に対処する視覚構造
Authors: Amirmohammad Izadi, Mohammad Ali Banayeeanzade, Fatemeh Askari, Ali Rahimiakbar, Mohammad Mahdi Vahedi, Hosein Hasani, Mahdieh Soleymani Baghshah,
Abstract要約: 本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。 VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
参考スコア（独自算出の注目度）: 9.406760867809124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite progress in Large Vision-Language Models (LVLMs), their capacity for visual reasoning is often limited by the binding problem: the failure to reliably associate perceptual features with their correct visual referents. This limitation underlies persistent errors in tasks such as counting, visual search, scene description, and spatial relationship understanding. A key factor is that current LVLMs process visual features largely in parallel, lacking mechanisms for spatially grounded, serial attention. This paper introduces Visual Input Structure for Enhanced Reasoning (VISER), a simple, effective method that augments visual inputs with low-level spatial structures and pairs them with a textual prompt that encourages sequential, spatially-aware parsing. We empirically demonstrate substantial performance improvements across core visual reasoning tasks, using only a single-query inference. Specifically, VISER improves GPT-4o performance on visual search, counting, and spatial relationship tasks by 25.0%, 26.8%, and 9.5%, respectively, and reduces edit distance error in scene description by 0.32 on 2D datasets. Furthermore, we find that the visual modification is essential for these gains; purely textual strategies, including Chain-of-Thought prompting, are insufficient and can even degrade performance. VISER underscores the importance of visual input design over purely linguistically based reasoning strategies and suggests that visual structuring is a powerful and general approach for enhancing compositional and spatial reasoning in LVLMs.
Abstract（参考訳）: LVLM(Large Vision-Language Models)の進歩にもかかわらず、視覚的推論の能力は、しばしば結合の問題によって制限される。この制限は、カウント、ビジュアル検索、シーン記述、空間的関係理解といったタスクにおける永続的なエラーの根底にある。重要な要素は、現在のLVLMが視覚的特徴をほぼ並列に処理し、空間的に接地された連続的な注意のメカニズムを欠いていることである。本稿では,視覚的入力を低レベル空間構造で拡張し,テキストのプロンプトと組み合わせることで,逐次的かつ空間的に認識可能な構文解析を促進する,視覚的入力構造拡張 (VISER) を提案する。単一クエリ推論のみを使用して、コアの視覚的推論タスク間での大幅なパフォーマンス向上を実証的に実証する。具体的には、視覚検索、カウント、空間関係タスクにおけるGPT-4oの性能をそれぞれ25.0%、26.8%、9.5%改善し、シーン記述における編集距離誤差を2Dデータセットで0.32削減する。さらに、これらの利得には視覚的な修正が不可欠であることが明らかとなり、純粋にテキストによる戦略であるChain-of-Thoughtのプロンプトは不十分であり、性能を低下させる可能性さえある。 VISERは、純粋言語に基づく推論戦略よりも視覚入力設計の重要性を強調し、視覚構造化はLVLMにおける構成的および空間的推論を強化するための強力で一般的なアプローチであることを示唆している。

関連論文リスト

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文参考訳（メタデータ） (2026-02-03T00:51:03Z)
Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文参考訳（メタデータ） (2025-11-24T18:55:19Z)
Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation [8.805397340243557]
視覚言語モデル (VLM) はしばしば幻覚、すなわち視覚入力では実証できない内容を生成する。本稿では, Gaze Shift-Guided Cross-Modal Fusion Enhancement (GIFT) という手法を提案する。
論文参考訳（メタデータ） (2025-10-24T23:04:26Z)
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文参考訳（メタデータ） (2025-09-08T09:20:04Z)
Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。提案手法は,複数の段階において重要なトークン選択と軽量なコンテキストマージを行い,攻撃的トークン予算の下でもきめ細かい視覚情報を保持できる。
論文参考訳（メタデータ） (2025-06-27T14:55:40Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文参考訳（メタデータ） (2025-05-24T14:25:48Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文参考訳（メタデータ） (2025-02-19T18:05:42Z)
Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文参考訳（メタデータ） (2025-02-17T12:26:34Z)
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文参考訳（メタデータ） (2025-02-17T06:54:49Z)
D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。 D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文参考訳（メタデータ） (2025-02-04T00:46:11Z)
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes [0.0]
Vision-Aware Retrieval-Augmented Prompting (VRAP)は、大規模ビジョンランゲージモデルを強化するジェネレーティブアプローチである。 VRAPは、微細な推論とマルチモーダル理解において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-16T02:52:19Z)
Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs [38.02017186215372]
大きな言語モデル(LLM)を視覚領域タスクに統合し、視覚的なLLM(V-LLM)を実現することにより、視覚言語タスクにおける例外的なパフォーマンスを実現している。しかし、既存のV-LLMは空間的推論と局所化認識が弱い。画像空間座標に基づく微調整目標が空間認識をV-LLMに注入する方法について検討する。
論文参考訳（メタデータ） (2024-04-11T03:09:34Z)
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。 HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。 3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文参考訳（メタデータ） (2023-03-02T08:00:22Z)
Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文参考訳（メタデータ） (2021-03-23T06:42:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。