論文の概要: Look, Recite, Then Answer: Enhancing VLM Performance via Self-Generated Knowledge Hints
- arxiv url: http://arxiv.org/abs/2512.00882v2
- Date: Tue, 02 Dec 2025 13:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.083747
- Title: Look, Recite, Then Answer: Enhancing VLM Performance via Self-Generated Knowledge Hints
- Title(参考訳): 自己生成型知識ヒントによるVLMパフォーマンス向上
- Authors: Xisheng Feng,
- Abstract要約: 「Look, Recite, Then Answer」は、視覚言語モデルを強化するパラメータ効率のよいフレームワークである。
AgroBenchでは,Qwen2-VL-72Bでの雑草同定精度を23.52%向上し,検索オーバーヘッドを伴わずにGPT-4oを上回った。
- 参考スコア(独自算出の注目度): 0.5414847001704249
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) exhibit significant performance plateaus in specialized domains like precision agriculture, primarily due to "Reasoning-Driven Hallucination" where linguistic priors override visual perception. A key bottleneck is the "Modality Gap": visual embeddings fail to reliably activate the fine-grained expert knowledge already encoded in model parameters. We propose "Look, Recite, Then Answer," a parameter-efficient framework that enhances VLMs via self-generated knowledge hints while keeping backbone models frozen. The framework decouples inference into three stages: (1) Look generates objective visual descriptions and candidate sets; (2) Recite employs a lightweight 1.7B router to transform visual cues into targeted queries that trigger candidate-specific parametric knowledge; (3) Answer performs parallel evidence alignment between descriptions and recited knowledge to select the most consistent label. On AgroBench, our method achieves state-of-the-art results, improving Weed Identification accuracy by 23.52% over Qwen2-VL-72B and surpassing GPT-4o without external search overhead. This modular design mitigates hallucinations by transforming passive perception into active, controllable knowledge retrieval
- Abstract(参考訳): VLM(Vision-Language Models)は、精密農業のような専門分野において、言語的な先駆者が視覚的知覚を上回る「推論駆動幻覚(Reasoning-Driven Hallucination)」によって重要なパフォーマンス高原を示す。
視覚的な埋め込みは、既にモデルパラメータにエンコードされている、きめ細かい専門知識を確実に活性化することができない。
バックボーンモデルの凍結を維持しつつ,自己生成した知識ヒントを通じてVLMを強化するパラメータ効率の高いフレームワークである「Look, Recite, Then Answer」を提案する。
フレームワークは推論を,(1)客観的な視覚的記述と候補集合を生成する; (2)Reciteは軽量な1.7Bルータを使用して,視覚的キューをターゲットクエリに変換し,候補固有のパラメトリック知識を誘導する;(3)Answerは記述と暗黙的知識の並列的なエビデンスを実行し,最も一貫性のあるラベルを選択する。
AgroBenchでは,Qwen2-VL-72Bでの雑草同定精度を23.52%向上し,検索オーバーヘッドを伴わずにGPT-4oを上回った。
このモジュラーデザインは、受動的知覚を能動的かつ制御可能な知識検索に変換することによって幻覚を緩和する
関連論文リスト
- Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models [0.0]
ビジュアル言語モデル(VLM)は強力な生成ツールであるが、しばしば事実的に正確な出力を生成する。
本研究は、知識誘導推論のためのフレームワークをVLMで導入し、マルチホップ検証に構造化知識グラフを活用する。
本研究では,階層的・三点的・三点的・三点的・三点的知識表現を用いた枠組みの評価を行い,実効性と論理的推論性について分析した。
論文 参考訳(メタデータ) (2025-11-25T17:34:32Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering [42.09744951074433]
生成過程を通じてランク付けされたトークンログを調べた結果,幻覚内部のダイナミクスについて検討した。
本稿では,真の情報を促進しつつ幻覚を減少させるトレーニングフリーな推論時間介入フレームワークであるVISTAを提案する。
論文 参考訳(メタデータ) (2025-02-05T21:34:02Z) - Harnessing the Power of Semi-Structured Knowledge and LLMs with Triplet-Based Prefiltering for Question Answering [2.6524539020042663]
大きな言語モデル(LLM)はドメイン固有の知識を欠くことが多く、微調整されたモデルでさえ幻覚を起こす傾向がある。
パイプラインである4StepFocus、具体的には前処理のステップを示し、LCMの回答を大幅に改善する。
この手法は、半構造化知識ベースで三重項に基づく検索によって、直接的かつトレース可能な方法で、潜在的に正しい答えを絞り込む。
論文 参考訳(メタデータ) (2024-09-01T22:43:27Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。