論文の概要: When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
- arxiv url: http://arxiv.org/abs/2506.05551v1
- Date: Thu, 05 Jun 2025 19:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.215728
- Title: When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
- Title(参考訳): セマンティクスのミスリードビジョン:シーンテキストスポッティングと理解における大規模マルチモーダルモデルの幻覚の緩和
- Authors: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は視覚知覚と推論において顕著な進歩を遂げた。
視覚的に曖昧で非意味的なシーンテキストに直面すると、コンテンツを正確に見つけて理解するのに苦労することが多い。
本稿では,2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.15848305976706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have achieved impressive progress in visual perception and reasoning. However, when confronted with visually ambiguous or non-semantic scene text, they often struggle to accurately spot and understand the content, frequently generating semantically plausible yet visually incorrect answers, which we refer to as semantic hallucination. In this work, we investigate the underlying causes of semantic hallucination and identify a key finding: Transformer layers in LLM with stronger attention focus on scene text regions are less prone to producing semantic hallucinations. Thus, we propose a training-free semantic hallucination mitigation framework comprising two key components: (1) ZoomText, a coarse-to-fine strategy that identifies potential text regions without external detectors; and (2) Grounded Layer Correction, which adaptively leverages the internal representations from layers less prone to hallucination to guide decoding, correcting hallucinated outputs for non-semantic samples while preserving the semantics of meaningful ones. To enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over 1,730 samples spanning both semantic and non-semantic cases, with manually curated question-answer pairs designed to probe model hallucinations. Extensive experiments demonstrate that our method not only effectively mitigates semantic hallucination but also achieves strong performance on public benchmarks for scene text spotting and understanding.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚知覚と推論において顕著な進歩を遂げた。
しかし、視覚的に曖昧で非意味的なシーンテキストに直面すると、その内容の正確な発見と理解に苦慮し、意味論的に妥当で視覚的に不正確な回答をしばしば生成し、意味幻覚(semantic hallucination)と呼ぶ。
本研究では,シーンテキスト領域に注意を向けたLLMのトランスフォーマー層は,意味幻覚を発生させる傾向が低いことを示す。
そこで本研究では,(1)外部検出のない潜在的テキスト領域を識別する粗大な戦略であるZoomText,(2)ハロシン化の少ない層からの内部表現を適応的に活用するグラウンドド層補正と,非意味的サンプルのハロシン化出力の補正と,意味のある部分のセマンティックスを保存しながら,デコーディングのガイドを行う,2つの主要なコンポーネントからなるトレーニングフリーセマンティックハロシン化フレームワークを提案する。
厳密な評価を可能にするために,意味論と非意味論の両方にまたがる1,730以上のサンプルのベンチマークであるTextHalu-Benchを紹介した。
大規模な実験により,本手法は意味幻覚を効果的に緩和するだけでなく,シーンテキストのスポッティングや理解のための公開ベンチマークでも高い性能を発揮することが示された。
関連論文リスト
- Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis [14.033320167387194]
現実の応用における大きな課題は幻覚であり、LVLMは存在しない視覚要素を生成し、ユーザの信頼を損なう。
我々は、オブジェクト、コンテキスト、セマンティックフォアグラウンド・バックグラウンド構造といった隠れた要因が幻覚を引き起こすという仮説を立てた。
画像・テキスト・プロンプト・ネットワーク・サリエンシの因果関係を解析することにより,これらの要因をブロックするための介入を系統的に検討する。
論文 参考訳(メタデータ) (2024-12-04T01:23:57Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。