論文の概要: When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
- arxiv url: http://arxiv.org/abs/2506.05551v1
- Date: Thu, 05 Jun 2025 19:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.215728
- Title: When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
- Title(参考訳): セマンティクスのミスリードビジョン:シーンテキストスポッティングと理解における大規模マルチモーダルモデルの幻覚の緩和
- Authors: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は視覚知覚と推論において顕著な進歩を遂げた。
視覚的に曖昧で非意味的なシーンテキストに直面すると、コンテンツを正確に見つけて理解するのに苦労することが多い。
本稿では,2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.15848305976706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have achieved impressive progress in visual perception and reasoning. However, when confronted with visually ambiguous or non-semantic scene text, they often struggle to accurately spot and understand the content, frequently generating semantically plausible yet visually incorrect answers, which we refer to as semantic hallucination. In this work, we investigate the underlying causes of semantic hallucination and identify a key finding: Transformer layers in LLM with stronger attention focus on scene text regions are less prone to producing semantic hallucinations. Thus, we propose a training-free semantic hallucination mitigation framework comprising two key components: (1) ZoomText, a coarse-to-fine strategy that identifies potential text regions without external detectors; and (2) Grounded Layer Correction, which adaptively leverages the internal representations from layers less prone to hallucination to guide decoding, correcting hallucinated outputs for non-semantic samples while preserving the semantics of meaningful ones. To enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over 1,730 samples spanning both semantic and non-semantic cases, with manually curated question-answer pairs designed to probe model hallucinations. Extensive experiments demonstrate that our method not only effectively mitigates semantic hallucination but also achieves strong performance on public benchmarks for scene text spotting and understanding.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚知覚と推論において顕著な進歩を遂げた。
しかし、視覚的に曖昧で非意味的なシーンテキストに直面すると、その内容の正確な発見と理解に苦慮し、意味論的に妥当で視覚的に不正確な回答をしばしば生成し、意味幻覚(semantic hallucination)と呼ぶ。
本研究では,シーンテキスト領域に注意を向けたLLMのトランスフォーマー層は,意味幻覚を発生させる傾向が低いことを示す。
そこで本研究では,(1)外部検出のない潜在的テキスト領域を識別する粗大な戦略であるZoomText,(2)ハロシン化の少ない層からの内部表現を適応的に活用するグラウンドド層補正と,非意味的サンプルのハロシン化出力の補正と,意味のある部分のセマンティックスを保存しながら,デコーディングのガイドを行う,2つの主要なコンポーネントからなるトレーニングフリーセマンティックハロシン化フレームワークを提案する。
厳密な評価を可能にするために,意味論と非意味論の両方にまたがる1,730以上のサンプルのベンチマークであるTextHalu-Benchを紹介した。
大規模な実験により,本手法は意味幻覚を効果的に緩和するだけでなく,シーンテキストのスポッティングや理解のための公開ベンチマークでも高い性能を発揮することが示された。
関連論文リスト
- A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。
これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。
本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文 参考訳(メタデータ) (2025-07-25T07:22:42Z) - HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation [2.2006360539727923]
HalluSegBenchは、対物的視覚推論のレンズを通して視覚的接地における幻覚を評価するために特別に設計された最初のベンチマークである。
我々のベンチマークは、281のユニークなオブジェクトクラスにまたがる1340の対実例ペアからなる新しいデータセットで構成されています。
HalluSegBenchの最先端の視覚言語セグメンテーションモデルによる実験では、視覚駆動幻覚はラベル駆動のものよりもはるかに多いことが示されている。
論文 参考訳(メタデータ) (2025-06-26T17:59:12Z) - Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images [6.48620624181578]
SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:08:52Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis [14.033320167387194]
現実の応用における大きな課題は幻覚であり、LVLMは存在しない視覚要素を生成し、ユーザの信頼を損なう。
我々は、オブジェクト、コンテキスト、セマンティックフォアグラウンド・バックグラウンド構造といった隠れた要因が幻覚を引き起こすという仮説を立てた。
画像・テキスト・プロンプト・ネットワーク・サリエンシの因果関係を解析することにより,これらの要因をブロックするための介入を系統的に検討する。
論文 参考訳(メタデータ) (2024-12-04T01:23:57Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。