論文の概要: Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2601.03100v1
- Date: Tue, 06 Jan 2026 15:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.992999
- Title: Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs
- Title(参考訳): テキストガイド層融合による多モードLCMの幻覚軽減
- Authors: Chenchen Lin, Sanbao Su, Rachel Luo, Yuxiao Chen, Yan Wang, Marco Pavone, Fei Miao,
- Abstract要約: TGIF(Text-Guided Inter-layer Fusion)は、エンコーダ層を深度的に「専門家」として扱う軽量モジュールである。
TGIFは幻覚、OCR、VQAベンチマークで一貫した改善を提供する。
- 参考スコア(独自算出の注目度): 25.843085393058434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) typically rely on a single late-layer feature from a frozen vision encoder, leaving the encoder's rich hierarchy of visual cues under-utilized. MLLMs still suffer from visually ungrounded hallucinations, often relying on language priors rather than image evidence. While many prior mitigation strategies operate on the text side, they leave the visual representation unchanged and do not exploit the rich hierarchy of features encoded across vision layers. Existing multi-layer fusion methods partially address this limitation but remain static, applying the same layer mixture regardless of the query. In this work, we introduce TGIF (Text-Guided Inter-layer Fusion), a lightweight module that treats encoder layers as depth-wise "experts" and predicts a prompt-dependent fusion of visual features. TGIF follows the principle of direct external fusion, requires no vision-encoder updates, and adds minimal overhead. Integrated into LLaVA-1.5-7B, TGIF provides consistent improvements across hallucination, OCR, and VQA benchmarks, while preserving or improving performance on ScienceQA, GQA, and MMBench. These results suggest that query-conditioned, hierarchy-aware fusion is an effective way to strengthen visual grounding and reduce hallucination in modern MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は通常、凍結された視覚エンコーダからの1つの遅延層機能に依存しており、エンコーダのリッチな視覚的キュー階層は未使用のままである。
MLLMはいまだに、画像証拠よりも言語優先に頼って、視覚的に根拠のない幻覚に悩まされている。
多くの事前緩和戦略はテキスト側で動作するが、視覚的表現はそのままであり、視覚層にまたがって符号化された機能のリッチな階層を利用しない。
既存の複数層融合法はこの制限に部分的に対処するが、静的のままであり、クエリに関係なく同じ層を混合する。
本研究では,エンコーダ層を深度的に"専門家"として扱う軽量モジュールであるTGIF(Text-Guided Inter-layer Fusion)を導入し,視覚的特徴の即時融合を予測する。
TGIFは直接の外部融合の原則に従い、ビジョンエンコーダの更新を必要とせず、オーバーヘッドを最小限にする。
LLaVA-1.5-7Bに統合されたTGIFは、ScienceQA、GQA、MMBenchのパフォーマンスを保存または改善しながら、幻覚、OCR、VQAベンチマーク間で一貫した改善を提供する。
これらの結果から,近年のMLLMでは,クエリ条件付き階層型融合が視覚的基盤の強化と幻覚の低減に有効な方法であることが示唆された。
関連論文リスト
- Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning [5.85033069870214]
動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
論文 参考訳(メタデータ) (2025-08-25T03:57:46Z) - LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models [8.122679857175315]
MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。
階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。
実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
論文 参考訳(メタデータ) (2025-07-25T09:48:23Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Multimodal Language Models See Better When They Look Shallower [54.5303326937134]
マルチモーダル大言語モデル(MLLM)は、通常、事前訓練された視覚変換器(ViT)の最終層から視覚的特徴を抽出する。
MLLMの視覚層選択に関する最初の総合的研究を行い,VT層間の表現類似性を解析した。
我々は、深い層がOCRのようなセマンティックリッチなタスクに優れているのに対して、浅い層と中層の層は、きめ細かい視覚的なタスクでそれらを著しく上回っていることに気付きました。
論文 参考訳(メタデータ) (2025-04-30T09:07:10Z) - EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。
膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。
幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。
従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T00:39:31Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。