論文の概要: ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2603.00165v1
- Date: Thu, 26 Feb 2026 06:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.074962
- Title: ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering
- Title(参考訳): ConFoThinking: 視覚的質問応答のための意識駆動思考の統合
- Authors: Zhaodong Wu, Haochen Xue, Qi Cao, Wenqi Mo, Yu Pei, Wenqi Xu, Jionglong Su, Yang Liu,
- Abstract要約: ConFoThinkingは、指定された中間層に注意を集約することを学び、そこから下流の視覚的理解のために、正常な領域を掘り下げてズームする。
5つのVQAベンチマークの実験は、ConFoThinkingが認識性能を大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 10.689628202869635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thinking with Images improves fine-grained VQA for MLLMs by emphasizing visual cues. However, tool-augmented methods depend on the capacity of grounding, which remains unreliable for MLLMs. In parallel, attention-driven methods to crop the Region of Interest (ROIs) are proposed but they are constrained by (1) fragmented attention signals scattered across layers, leading to suboptimal localization and (2) relying on question- or redundant-text-conditioned attention extraction. Our analysis reveals three patterns: MLLMs may attend to the correct region yet generate incorrect coordinates, where-to-look attention is often fragmented across layers, and attention extraction is query-sensitive. Motivated by these, We propose ConFoThinking, a Consolidated-Focused-Attention-Driven Thinking framework that learns to aggregate attention into a designated intermediate layer, from which we mine and zoom in salient regions for downstream visual understanding. Moreover, we extract attention using concise semantic cues of what to look into, which mitigates the semantic noise introduced by question- or redundant-text-based attention extraction. Experiments across five VQA benchmarks demonstrate ConFoThinking significantly improves perception performance. The code, checkpoints, and dataset will be released after being accepted.
- Abstract(参考訳): イメージによる思考は、視覚的手がかりを強調することで、MLLMの微細なVQAを改善する。
しかし,ツール拡張手法は,MLLMでは信頼性が低い接地能力に依存している。
並行して、関心領域(ROI)を抽出する注意駆動手法が提案されているが、(1)層に分散する断片化された注意信号によって制約され、(2)質問文や冗長テキストによる注意抽出に依存する。
MLLMは正しい領域にたどり着くが、誤った座標を生成する可能性があり、見渡す注意はしばしば層間で断片化され、注意抽出はクエリに敏感である。
そこで我々はConFoThinkingを提案する。ConFoThinkingは集中型集中型思考フレームワークで、注意を特定の中間層に集約し、下流の視覚的理解のために正常な領域を掘り下げてズームする。
さらに,検討対象の簡潔な意味的手がかりを用いて注意を抽出し,質問文や冗長テキストに基づく注意抽出によってもたらされる意味的ノイズを緩和する。
5つのVQAベンチマークの実験は、ConFoThinkingが認識性能を大幅に改善したことを示している。
コード、チェックポイント、データセットは、受け入れられた後、リリースされる。
関連論文リスト
- Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement [30.12584783649903]
LVLM(Large Vision-Language Models)は、画像パッチをテキスト埋め込みスペースと整列させることにより、急速に進歩しているが、固定された視覚的な予算により、イメージを均一な事前訓練解像度に再サイズする。
最近の注意誘導強化(例えば、収穫や地域中心の注意配分)は、これを緩和するが、単純な認識ベンチマークで経験的に選択された静的な「魔法の層」に強く依存する。
この静的な仮定とは対照的に,視覚的接地に関する動的視点を提案する。
様々なVQAベンチマークによる実験により、LASERは様々なレベルの複雑さを持つタスク間でVQAの精度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-02-04T08:13:01Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! [3.355491272942994]
本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
論文 参考訳(メタデータ) (2024-10-28T12:43:48Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Self-supervised Implicit Glyph Attention for Text Recognition [52.68772018871633]
我々は、シーンテキスト認識(STR)手法、自監督型暗黙的グリフアテンション(SIGA)のための新しいアテンションメカニズムを提案する。
SIGAは、テキストイメージのグリフ構造を、共同で教師付きテキストセグメンテーションと暗黙の注意アライメントによって記述する。
実験の結果,SIGA は従来の STR 法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-03-07T13:40:33Z) - Semantic Reinforced Attention Learning for Visual Place Recognition [15.84086970453363]
大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。
本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。
都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-08-19T02:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。