論文の概要: Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2603.16664v1
- Date: Tue, 17 Mar 2026 15:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.376083
- Title: Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation
- Title(参考訳): ケストレル:LVLMの幻覚緩和のための自給自足
- Authors: Jiawei Mao, Hardy Chen, Haoqin Tu, Yuhan Wang, Letian Zhang, Zeyu Zheng, Huaxiu Yao, Zirui Wang, Cihang Xie, Yuyin Zhou,
- Abstract要約: 大規模視覚言語モデル(LVLM)はますます強まりつつあるが、マルチモーダルタスクにおいて幻覚を起こす傾向にある。
幻覚を避けるためにこれらのLVLMを訓練することは、より大きなモデルでは違法に高価になるため、トレーニングフリーな手法はこの問題に対して安価で柔軟な解決策を提供する。
我々は,視覚的視覚的接地剤とエビデンスを検証した自己修復機構を組み合わせた,LVLM幻覚軽減のためのトレーニングフリーフレームワークであるKestrelを提案する。
- 参考スコア(独自算出の注目度): 86.37623966653688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have become increasingly strong but remain prone to hallucinations in multimodal tasks, which significantly narrows their deployment. As training these LVLMs to avoid hallucinations becomes prohibitively expensive for larger models, training-free methods offer a cheap and flexible solution to this problem, yet existing approaches based on decoding or tool use often bring limited gains and/or weak interpretability. We propose Kestrel, a training-free framework for LVLM hallucination mitigation that combines an explicit visual-grounding agent with evidence-verified self-refinement mechanism. In detail, Kestrel first collects explicit visual evidence and converts tool outputs into reusable and structured textual evidence. Second, to take full advantage of these evidence, Kestrel verifies them via an LVLM judge for evidence checking, then iteratively self-refine answers based on verified evidence to reduce the risk of over-correction. Extensive experiments show that Kestrel improves performance over strong baselines across hallucination benchmarks (e.g., average +3.31% on POPE and +28.34 on MME-Hallucination with Qwen3-VL), while providing transparent verification traces for hallucination diagnosis and analysis -- e.g., both the integrated self-refinement module and grounding agent contributing an average +2.0% gain on POPE.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)はますます強まりつつあるが、マルチモーダルタスクにおける幻覚の傾向が強くなり、展開を著しく制限している。
幻覚を避けるためにこれらのLVLMを訓練することは、より大きなモデルでは違法に高価になるので、トレーニングなしの手法は、この問題に対して安価で柔軟な解決策を提供するが、デコードやツールの使用に基づく既存のアプローチは、しばしば限られた利得や弱い解釈可能性をもたらす。
我々は,視覚的視覚的接地剤とエビデンスを検証した自己修復機構を組み合わせた,LVLM幻覚軽減のためのトレーニングフリーフレームワークであるKestrelを提案する。
詳しくは、ケストレルはまず明確な視覚的証拠を収集し、ツール出力を再利用可能な構造化されたテキスト的証拠に変換する。
第二に、これらの証拠を最大限に活用するために、ケストレルはLVLMの審査員を通じて証拠の確認を検証し、検証された証拠に基づいて反復的に答えを精査し、過度な補正のリスクを減らす。
大規模な実験の結果、ケストレルは幻覚のベンチマークで強いベースライン(POPEでは平均+3.31%、Qwen3-VLではMME-Hallucinationでは+28.34)で性能を改善し、幻覚の診断と分析のための透明な検証トレースを提供する。
関連論文リスト
- HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing [6.021803204524807]
LVLM(Large Vision-Language Models)は、マルチモーダル理解機能を示す。
LVLMはオブジェクト幻覚を起こす傾向があり、モデルでは存在しないオブジェクトや属性の誤った事実情報を記述している。
HIME(Halucination Insensitivity Model Editing)は,隠れた特徴を選択的に修正し,幻覚を抑制する階層適応的な重み編集手法である。
論文 参考訳(メタデータ) (2026-02-21T04:16:17Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Identify, Isolate, and Purge: Mitigating Hallucinations in LVLMs via Self-Evolving Distillation [52.52962914918779]
幻覚の問題は 信頼性と応用可能性を大幅に制限します
既存の緩和方法は、外部ツールやマルチラウンド推論の比較に依存している。
我々は, LVLMの内部知識における幻覚を識別し, 分離し, 浄化するtextbfSElf-textbfDistillation (textbfSEED)を提案する。
論文 参考訳(メタデータ) (2025-07-07T05:56:19Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。
実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文 参考訳(メタデータ) (2025-04-16T14:50:25Z) - Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models [41.979015935353814]
大規模言語モデル(LLM)におけるゼロショット幻覚検出のためのAGSER(Attention-Guided SElf-Reflection)アプローチを提案する。
AGSER法は注意力を利用して、入力クエリを注意クエリと非注意クエリに分類する。
幻覚を検出する効果に加えて、AGSERは計算オーバーヘッドを著しく減らし、LSMを通過する3つのトークンと2つのトークンを使用する必要がある。
論文 参考訳(メタデータ) (2025-01-17T07:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。