論文の概要: Draft and Refine with Visual Experts
- arxiv url: http://arxiv.org/abs/2511.11005v1
- Date: Fri, 14 Nov 2025 06:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.459829
- Title: Draft and Refine with Visual Experts
- Title(参考訳): ビジュアルエキスパートによるドラフトとリファイン
- Authors: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani,
- Abstract要約: 最近のLVLM(Large Vision-Language Models)は、強力なマルチモーダル推論能力を示す。
彼らはしばしば、視覚的な証拠ではなく、言語的な先入観に強く依存しているため、根拠のない、あるいは幻覚的な反応を生み出す。
本稿では,質問条件付き利用指標によって駆動されるエージェントフレームワークであるDraft and Refine(DnR)を提案する。
- 参考スコア(独自算出の注目度): 18.983324604452118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.
- Abstract(参考訳): 近年のLVLM(Large Vision-Language Models)は、強力なマルチモーダル推論能力を示すが、視覚的証拠ではなく、言語的先行に強く依存しているため、しばしば根拠のない、あるいは幻覚的な応答をもたらす。
この制限は、これらのモデルが推論中に実際に視覚情報を使用するかの定量的尺度が存在しないことを強調する。
本稿では,質問条件付き利用指標によって駆動されるエージェントフレームワークであるDraft and Refine(DnR)を提案する。
このメトリクスは、まずクエリ条件付き関連マップを構築し、質問固有のキューをローカライズし、関連誘導確率マスクにより依存を測定することで、モデルが視覚的エビデンスに依存することを定量化する。
この指標によって導かれたDnRエージェントは、外部視覚専門家のターゲットフィードバックを使用して、最初のドラフトを洗練する。
各専門家のアウトプット(ボックスやマスクなど)は画像上の視覚的手がかりとして描画され、モデルが再クエリされて、最大の利用改善をもたらす応答を選択する。
このプロセスは、再トレーニングやアーキテクチャの変更なしに、視覚的な接地を強化する。
VQAとキャプションベンチマークによる実験は、一貫した精度の向上と幻覚の減少を示し、視覚的利用の測定がより解釈可能でエビデンス駆動のマルチモーダルエージェントシステムへの原則的な経路を提供することを示した。
関連論文リスト
- KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - VFaith: Do Large Multimodal Models Really Reason on Seen Images Rather than Previous Memories? [34.7828249918764]
本稿では,MLLMの視覚的推論能力を評価する最初のベンチマークであるVFaith-Benchを紹介する。
VFaith-Benchは755のエントリを5つの異なるサブセットに分割し、追加の人間ラベルの知覚タスクを含む。
論文 参考訳(メタデータ) (2025-06-13T08:27:45Z) - Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data [35.229595049396245]
LMMの認識と説明性を改善するための新しい視覚的拒絶サンプリングフレームワークを提案する。
私たちのアプローチは、人間の検証可能な視覚的特徴を含む解釈可能な答えを合成することから始まります。
各ラウンドの微調整の後、最高品質の解答を選択するために報酬モデルのないフィルタリング機構を適用する。
論文 参考訳(メタデータ) (2025-02-19T19:05:45Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。