Fugu-MT 論文翻訳(概要): Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

論文の概要: Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

arxiv url: http://arxiv.org/abs/2603.04676v1
Date: Wed, 04 Mar 2026 23:34:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.006461
Title: Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks
Title（参考訳）: マルチイメージ理解課題における共振VLMのパルス復号
Authors: Chenjun Li,
Abstract要約: 従来見過ごされていた現象を考察する: チェーン・オブ・ソート(CoT)世代において、推論のテキスト・ツー・イメージ(T2I)の注意が「パルス」を拡散させる。我々は、CoT推論をソフトアテンションゲーティングでインターリーブされたプラン/フォーカスブロックに構造化する訓練不要な推論時間手法であるPulseFocusを提案する。
参考スコア（独自算出の注目度）: 0.006813985320936554
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-image reasoning remains a significant challenge for vision-language models (VLMs). We investigate a previously overlooked phenomenon: during chain-of-thought (CoT) generation, the text-to-image (T2I) attention of reasoning VLMs exhibits diffuse "pulses": sporadic and unfocused attention patterns that fail to concentrate on task-relevant images. We further reveal a systematic positional bias in attention allocation across images. Motivated by these observations, we propose PulseFocus, a training-free, inference-time method that structures CoT reasoning into interleaved plan/focus blocks with soft attention gating. By forcing the model to explicitly plan which image to examine and then gating decode-time attention to the referenced image, PulseFocus sharpens attention focus and yields consistent improvements on multi-image benchmarks like BLINK benchmark (+3.7%) and MuirBench (+1.07%).
Abstract（参考訳）: マルチイメージ推論は、視覚言語モデル(VLM)にとって重要な課題である。従来見過ごされていた現象を考察する: チェーン・オブ・ソート(CoT)生成中、VLMのテキスト・ツー・イメージ(T2I)の注意は、タスク関連画像に集中できない散発的かつ非集中的な注意パターンである拡散的な「パルス」を示す。さらに、画像間での注意配分の体系的な位置バイアスを明らかにした。これらの観測から得られたPulseFocusは、CoT推論をソフトアテンションゲーティングでインターリーブされたプラン/フォーカスブロックに構造化する訓練不要な推論時間手法である。 PulseFocusは、どの画像を調べるかを明示的に計画し、参照された画像にデコードタイムの注意を向けることによって、注意を集中させ、BLINKベンチマーク(+3.7%)やMuirBench(+1.07%)のようなマルチイメージベンチマークに一貫した改善をもたらす。

関連論文リスト

ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering [10.689628202869635]
ConFoThinkingは、指定された中間層に注意を集約することを学び、そこから下流の視覚的理解のために、正常な領域を掘り下げてズームする。 5つのVQAベンチマークの実験は、ConFoThinkingが認識性能を大幅に改善したことを示している。
論文参考訳（メタデータ） (2026-02-26T06:28:43Z)
Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文参考訳（メタデータ） (2026-02-09T03:33:23Z)
More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。 LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文参考訳（メタデータ） (2026-01-12T18:45:13Z)
CoFFT: Chain of Foresight-Focus Thought for Visual Language Models [61.34272727005052]
フォレスト・フォーカス思考の連鎖(英語: Chain of Foresight-Focus Thought, CoFFT)は、人間の視覚的認知をエミュレートすることによって視覚的推論を強化する訓練のないアプローチである。これらの段階は反復的に機能し、推論が視覚的焦点を導き、視覚的焦点がその後の推論を知らせる相互依存サイクルを生成する。 Qwen2.5-VL、InternVL-2.5、Llava-Nextを使った複数のベンチマークでの実証結果では、3.1-5.8%が一貫したパフォーマンス向上を示し、計算オーバーヘッドは増大した。
論文参考訳（メタデータ） (2025-09-26T07:46:30Z)
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文参考訳（メタデータ） (2025-09-08T09:20:04Z)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。 TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文参考訳（メタデータ） (2025-03-17T16:45:12Z)
MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。 tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文参考訳（メタデータ） (2025-02-02T08:34:57Z)
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! [3.355491272942994]
本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
論文参考訳（メタデータ） (2024-10-28T12:43:48Z)
More Than Just Attention: Learning Cross-Modal Attentions with Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。 CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。 Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文参考訳（メタデータ） (2021-05-20T08:48:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。