論文の概要: Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens
- arxiv url: http://arxiv.org/abs/2509.03025v1
- Date: Wed, 03 Sep 2025 05:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.422971
- Title: Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens
- Title(参考訳): 視覚障害者に対する大規模視線モデルの効果の解明
- Authors: Sohee Kim, Soohyun Ryu, Joonhyung Park, Eunho Yang,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚とテキストの入力を共同で解釈することで、文脈的に関連する応答を生成する。
我々は,LVLMが画像中にテキスト概念が存在するかどうかを判断する内部能力を持っているかどうかを調査する。
入力トークンが視覚的に接地されているかどうかを系統的に分類する検出モジュールを開発する。
- 参考スコア(独自算出の注目度): 43.43888632864549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) generate contextually relevant responses by jointly interpreting visual and textual inputs. However, our finding reveals they often mistakenly perceive text inputs lacking visual evidence as being part of the image, leading to erroneous responses. In light of this finding, we probe whether LVLMs possess an internal capability to determine if textual concepts are grounded in the image, and discover a specific subset of Feed-Forward Network (FFN) neurons, termed Visual Absence-aware (VA) neurons, that consistently signal the visual absence through a distinctive activation pattern. Leveraging these patterns, we develop a detection module that systematically classifies whether an input token is visually grounded. Guided by its prediction, we propose a method to refine the outputs by reinterpreting question prompts or replacing the detected absent tokens during generation. Extensive experiments show that our method effectively mitigates the models' tendency to falsely presume the visual presence of text input and its generality across various LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚とテキストの入力を共同で解釈することで、文脈的に関連する応答を生成する。
しかし,画像の一部として視覚的証拠を欠いたテキスト入力を誤認識することが少なく,誤応答が生じることが判明した。
この発見を踏まえて、LVLMは、画像にテキスト概念が根付いているかどうかを判断する内部能力を有しており、視覚的無意識(VA)ニューロンと呼ばれるフィードフォワードネットワーク(FFN)ニューロンの特定のサブセットを発見し、一貫したアクティベーションパターンを通して視覚的不在を信号する。
これらのパターンを活用することで、入力トークンが視覚的に接地されているかどうかを体系的に分類する検出モジュールを開発する。
そこで本研究では,検出された不在トークンを生成中に再解釈したり,置き換えたりすることで,出力を洗練させる手法を提案する。
実験により,本手法は,テキスト入力の視覚的存在と様々なLVLMの一般化を誤推定する傾向を効果的に緩和することを示した。
関連論文リスト
- GLIMPSE: Holistic Cross-Modal Explainability for Large Vision-Language Models [0.0]
GLIMPSEはLVLM出力を最も関連性の高い視覚的エビデンスとテキスト信号に共同で属性付けるモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および関連重み付けされたトークン集合を融合させ、全体的な応答レベル熱マップを生成する。
我々は,LVLMのクロスモーダル属性,トレース推論のダイナミクス,系統的ミスアライメントの分析,幻覚と偏見の診断,透明性の確保に関する詳細な知見を明らかにするための分析的アプローチを実証する。
論文 参考訳(メタデータ) (2025-06-23T18:00:04Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.871396640891334]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。