論文の概要: Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.20168v1
- Date: Wed, 25 Jun 2025 06:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.628517
- Title: Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models
- Title(参考訳): 信じているか? マルチモーダル大言語モデルにおけるOCR幻覚の緩和
- Authors: Zhentao He, Can Zhang, Ziheng Wu, Zhenghao Chen, Yufei Zhan, Yifan Li, Zhao Zhang, Xian Wang, Minghui Qiu,
- Abstract要約: 劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
- 参考スコア(独自算出の注目度): 22.43132625619281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models have enhanced document understanding by integrating textual and visual information. However, existing models exhibit incompleteness within their paradigm in real-world scenarios, particularly under visual degradation. In such conditions, the current response paradigm often fails to adequately perceive visual degradation and ambiguity, leading to overreliance on linguistic priors or misaligned visual-textual reasoning. This difficulty in recognizing uncertainty frequently results in the generation of hallucinatory content, especially when a precise answer is not feasible. To better demonstrate and analyze this phenomenon and problem, we propose KIE-HVQA, the first benchmark dedicated to evaluating OCR hallucination in degraded document understanding. This dataset includes test samples spanning identity cards and invoices, with simulated real-world degradations for OCR reliability. This setup allows for evaluating models' capacity, under degraded input, to distinguish reliable visual information and answer accordingly, thereby highlighting the challenge of avoiding hallucination on uncertain data. To achieve vision-faithful reasoning and thereby avoid the aforementioned issues, we further introduce a GRPO-based framework featuring a novel reward mechanism. By incorporating a self-awareness of visual uncertainty and an analysis method that initiates refusal to answer to increase task difficulty within our supervised fine-tuning and reinforcement learning framework, we successfully mitigated hallucinations in ambiguous regions. Experiments on Qwen2.5-VL demonstrate that our 7B-parameter model achieves a 22\% absolute improvement in hallucination-free accuracy over GPT-4o on KIE-HVQA and there is no significant performance drop in standard tasks, highlighting both effectiveness and robustness.
- Abstract(参考訳): 近年の多モーダル大規模言語モデルの進歩は、テキスト情報と視覚情報を統合することで文書理解の強化に寄与している。
しかし、既存のモデルは、特に視覚的劣化の下で、現実世界のシナリオにおいてパラダイム内で不完全性を示す。
このような状況下では、現在の応答パラダイムは視覚的劣化と曖昧さを適切に知覚できないことが多く、言語的先行性への過度な依存や、視覚的・テキスト的推論の不一致につながる。
不確実性を認識することの難しさは、特に正確な答えが実現不可能な場合、幻覚コンテンツの生成につながる。
この現象と問題をよりよく解析するために、劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
この設定は、劣化した入力の下でモデルの能力を評価し、信頼性の高い視覚情報を識別し、それに応じて答えることを可能にし、不確実なデータに対する幻覚を避けるという課題を強調する。
視覚に忠実な推論を実現し,上記の問題を回避すべく,新たな報酬機構を備えたGRPOベースのフレームワークを新たに導入する。
視覚的不確実性の自己認識と、教師付き微調整・強化学習フレームワークにおけるタスクの難易度を高めるために回答を拒否する分析手法を組み込むことにより、曖昧な領域における幻覚の軽減に成功した。
Qwen2.5-VLの実験では、7Bパラメータモデルでは、KIE-HVQA上のGPT-4oよりも22倍の幻覚のない精度で絶対的な改善が達成され、標準タスクの性能低下は見られず、有効性とロバスト性の両方を強調している。
関連論文リスト
- Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model [1.124958340749622]
本研究では,最も適切なフィルタリング手法を適応的に選択する,アンサンブルに基づく新しい前処理フレームワークを提案する。
この手法は、自然言語推論(NLI)スコアによって測定された幻覚率を44.3%削減する。
この結果は、幻覚を緩和し、より信頼性の高いマルチモーダルシステムを実現するための適応的前処理技術の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-05-29T21:09:34Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。