論文の概要: Vision Language Models Map Logos to Text via Semantic Entanglement in the Visual Projector
- arxiv url: http://arxiv.org/abs/2510.12287v1
- Date: Tue, 14 Oct 2025 08:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.256109
- Title: Vision Language Models Map Logos to Text via Semantic Entanglement in the Visual Projector
- Title(参考訳): 視覚言語モデルによる視覚プロジェクタのセマンティックエンタングルメントによるテキストへのログマップ
- Authors: Sifan Li, Hongkai Chen, Yujun Cai, Qingwen Ye, Liyang Chen, Junsong Yuan, Yiwei Wang,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダル推論において顕著な進歩を遂げた。
しかし、視覚的な証拠はアウトプットを根拠にしていない幻覚に弱いままである。
本稿では,これまで見過ごされていた「ロゴ幻覚」について考察する。
- 参考スコア(独自算出の注目度): 41.95688336107109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have achieved impressive progress in multimodal reasoning; yet, they remain vulnerable to hallucinations, where outputs are not grounded in visual evidence. In this paper, we investigate a previously overlooked setting: logo hallucination, where models generate brand names or textual content despite logos containing no visible words. Using curated splits of pure symbols, hybrids, and text-bearing logos, as well as the challenging Hard-60 subset, we systematically measure hallucination across leading VLMs. We further probe robustness through nine structured perturbations and show that hallucinations persist even under strong distortions, with occlusion exposing the sharpest weaknesses. Embedding-level analysis with open-weight LLaVA demonstrates that hallucination is tied to a small subset of projector dimensions, and targeted ablation substantially reduces errors while preserving OCR accuracy. Together, these findings reveal that VLMs often rely on symbolic priors rather than genuine glyph perception, particularly for iconic circular logos, and that projector subspaces play a decisive role in this failure mode. Our work contributes both a novel diagnostic lens and actionable mitigation insights, highlighting projector disentanglement and OCR-guided decoding as promising directions for building more trustworthy multimodal systems.
- Abstract(参考訳): 視覚言語モデル (VLM) はマルチモーダル推論において顕著な進歩を遂げているが、視覚的証拠に基づかない幻覚に弱いままである。
本稿では,これまで見過ごされていた「ロゴ幻覚」について考察する。
純粋なシンボル、ハイブリッド、テキストを含むロゴのキュレートされた分割と、挑戦的なHard-60サブセットを用いて、主要なVLM間で幻覚を体系的に測定する。
さらに,9つの構造的摂動を通して頑健さを探索し,強い歪みの下でも幻覚が持続し,オクルージョンが最も鋭い弱みを露呈することを示した。
オープンウェイトLLaVAを用いた埋め込みレベルの解析では、幻覚はプロジェクター次元の小さな部分集合に結びついており、ターゲットアブレーションはOCR精度を維持しながらエラーを大幅に低減する。
これらの結果は、VLMが真のグリフ認識よりも、特に象徴的な円形のロゴに依存しており、プロジェクター部分空間がこの障害モードにおいて決定的な役割を果たすことを示している。
我々の研究は、新しい診断レンズと行動可能な緩和洞察の両方に寄与し、より信頼性の高いマルチモーダルシステムを構築するための有望な方向として、プロジェクターの歪みとOCR誘導復号を強調する。
関連論文リスト
- On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models [27.228426342808486]
我々は、視覚エンコーダ(VE)内の不確実な視覚トークンが、物体の幻覚に寄与する重要な要因であると主張している。
本稿では,VEのみを修飾することにより,物体の幻覚を緩和するための簡易かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T05:12:52Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。