Fugu-MT 論文翻訳(概要): DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

論文の概要: DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.03857v1
Date: Wed, 04 Mar 2026 09:06:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.244574
Title: DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models
Title（参考訳）: DeepScan: 大規模視覚言語モデルにおける視覚的接地推論のためのトレーニング不要フレームワーク
Authors: Yangfu Li, Hongjian Zhan, Jiawei Chen, Yuning Gong, Qi Liu, Yue Lu,
Abstract要約: 階層型スキャン,再焦点化,エビデンス強化推論を組み合わせたトレーニング不要のフレームワークであるDeepScanを提案する。実験により、DeepScanは様々な視覚タスクにおいてLVLMを大幅に向上することが示された。 Qwen2.5-VL-7Bに統合された場合、V*の全体的な精度は90.6%に達する。
参考スコア（独自算出の注目度）: 17.001413023262675
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans can robustly localize visual evidence and provide grounded answers even in noisy environments by identifying critical cues and then relating them to the full context in a bottom-up manner. Inspired by this, we propose DeepScan, a training-free framework that combines Hierarchical Scanning, Refocusing, and Evidence-Enhanced Reasoning for visually grounded reasoning in Large Vision-Language Models (LVLMs). Unlike existing methods that pursue one-shot localization of complete evidence, Hierarchical Scanning performs local cue exploration and multi-scale evidence extraction to recover evidence in a bottom-up manner, effectively mitigating the impacts of distractive context. Refocusing then optimizes the localized evidence view through collaboration of LVLMs and visual experts. Finally, Evidence-Enhanced Reasoning aggregates multi-granular views via a hybrid evidence memory and yields accurate and interpretable answers. Experimental results demonstrate that DeepScan significantly boosts LVLMs in diverse visual tasks, especially in fine-grained visual understanding. It achieves 90.6% overall accuracy on V* when integrated with Qwen2.5-VL-7B. Moreover, DeepScan provides consistent improvements for LVLMs across various architectures and model scales without additional adaptation cost.
Abstract（参考訳）: 人間は視覚的証拠をしっかりとローカライズし、批判的な手がかりを識別し、ボトムアップ方式でそれらを完全な文脈に関連付けることで、ノイズの多い環境でも基礎的な答えを提供することができる。本研究では,LVLM(Large Vision-Language Models)における視覚的根拠に基づく推論のための階層的スキャン,再焦点,エビデンス強化推論を組み合わせた学習自由フレームワークであるDeepScanを提案する。完全な証拠の1ショットの局所化を追求する既存の方法とは異なり、階層的スキャンは局所的なキュー探索と複数スケールの証拠抽出を行い、ボトムアップ方式で証拠を回収し、注意をそらす文脈の影響を効果的に軽減する。その後、LVLMと視覚専門家の協力により、局所的なエビデンスビューを最適化する。最後に、Evidence-Enhanced Reasoningはハイブリッドエビデンスメモリを介して複数の粒界ビューを集約し、正確で解釈可能な回答を得る。実験により,DeepScanは様々な視覚的タスク,特にきめ細かい視覚的理解において,LVLMを著しく向上させることが示された。 Qwen2.5-VL-7Bに統合された場合、V*の全体的な精度は90.6%に達する。さらに、DeepScanは、追加の適応コストなしで、様々なアーキテクチャやモデルスケールにわたるLVLMの一貫性のある改善を提供する。

関連論文リスト

VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。 EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文参考訳（メタデータ） (2025-10-10T13:34:23Z)
SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。 SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文参考訳（メタデータ） (2025-06-10T02:55:38Z)
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [15.991125806837386]
LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。 Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-29T23:32:03Z)
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文参考訳（メタデータ） (2025-03-17T04:06:34Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。マルチモーダルエビデンス検索のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-19T13:57:11Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。