論文の概要: LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2507.19110v1
- Date: Fri, 25 Jul 2025 09:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.904729
- Title: LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models
- Title(参考訳): LISA:マルチモーダル大言語モデルにおけるハロシン化緩和のための階層的統合と抑制手法
- Authors: Zhihui Guo, Xin Man, Hui Xu, Jie Shao,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。
階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。
実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
- 参考スコア(独自算出の注目度): 8.122679857175315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) excel in vision-language tasks such as image captioning but remain prone to object hallucinations, where they describe objects that do not appear in the image. To mitigate this, we propose \textbf{LISA}, a \textbf{L}ayer-wise \textbf{I}ntegration and \textbf{S}uppression \textbf{A}pproach that enhances generation consistency through hierarchical modulation and multi-layer fusion. LISA leverages the functional hierarchy within MLLMs, where shallow layers provide visual grounding, middle layers encode semantics, and deep layers tend to amplify spurious signals. First, zone-specific spectral modulation stabilizes attention by suppressing over-amplified activations in deeper layers while preserving alignment cues in earlier layers. Second, token-level logits from selected layers are fused via anchor-based routing, with token-wise anchor selection and soft logit fusion enabling adaptive integration during decoding. LISA is fully \textbf{plug-and-play} and can be seamlessly integrated into existing MLLMs, including Qwen2.5-VL. Experiments on multiple benchmarks show that LISA reduces hallucinations by up to 53.6\% in $\mathrm{CHAIR}_I$ and improves POPE F1 by 4.5\%, demonstrating strong generalization across models and tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像キャプションのような視覚的なタスクを排他的に行うが、画像に現れないオブジェクトを記述するために、オブジェクト幻覚を伴わない。
これを緩和するために、階層的変調と多層融合による生成一貫性を高めるための \textbf{L}ayer-wise \textbf{I}ntegration と \textbf{S}uppression \textbf{A}pproach を提案する。
LISAはMLLM内の機能的階層を利用しており、浅い層は視覚的な接地を提供し、中層は意味論をエンコードし、深い層は刺激的な信号を増幅する傾向がある。
第一に、ゾーン特異的スペクトル変調は、より深い層における過度に増幅された活性化を抑えつつ、以前の層におけるアライメントキューを保ち、注意を安定化させる。
第二に、選択されたレイヤからのトークンレベルのロジットは、アンカーベースのルーティングによって融合され、トークンワイドアンカー選択とソフトロジット融合により、デコーディング中に適応的な統合が可能になる。
LISA は完全に \textbf{plug-and-play} で、Qwen2.5-VL を含む既存の MLLM にシームレスに統合できる。
複数のベンチマークの実験では、LISA は $\mathrm{CHAIR}_I$ で 53.6 % の幻覚を減らし、POPE F1 を4.5 % 改善し、モデルやタスク間の強力な一般化を実証している。
関連論文リスト
- From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs [59.78917775399492]
マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させる。
この劣化を緩和するためのトレーニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-12T15:27:51Z) - Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs [25.843085393058434]
TGIF(Text-Guided Inter-layer Fusion)は、エンコーダ層を深度的に「専門家」として扱う軽量モジュールである。
TGIFは幻覚、OCR、VQAベンチマークで一貫した改善を提供する。
論文 参考訳(メタデータ) (2026-01-06T15:31:19Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - D$^2$HScore: Reasoning-Aware Hallucination Detection via Semantic Breadth and Depth Analysis in LLMs [15.665202830841046]
この研究は、モデルアーキテクチャと生成ダイナミクスの観点から幻覚検出を再考する。
textbfD$2$HScore (Dispersion and Drift-based Hallucination Score) を提案する。
5つのオープンソースのLanguage Modelと5つの広く使用されているベンチマークの実験は、D$2$HScoreが既存のトレーニング不要のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-15T04:28:38Z) - Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning [5.85033069870214]
動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
論文 参考訳(メタデータ) (2025-08-25T03:57:46Z) - ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way [7.18701660596182]
ByDeWayは、MLLM(Multimodal Large Language Models)のパフォーマンスを向上させるために設計された、トレーニング不要のフレームワークである。
ByDeWayはLayered-Depth-Based Prompting(LDP)と呼ばれる新しいプロンプト戦略を使っている
シーンを単眼深度推定を用いて最も近い中距離層と最も遠い層に分割し、接地された視覚言語モデルで領域固有のキャプションを生成する。
論文 参考訳(メタデータ) (2025-07-11T15:21:49Z) - Rethinking Visual Layer Selection in Multimodal LLMs [46.091556112958884]
この研究は、浅い、中、深いカテゴリに類似した振る舞いを持つグループCLIP-ViT層に対するレイヤワイズ類似性アプローチを提案する。
大規模MLLMにおける視覚層選択問題を再考し,1.4Bから7BまでのLLaVAスタイルのモデルを訓練する。
1) 深層はOCRタスクに必須であり,(2) 浅層と中層はカウント,位置決め,オブジェクトの局所化を含む推論タスクにおいて実質的に深層を上回り,(3) 浅層,中層,深層をまたいだ軽量な融合は,専門的な融合ベースラインと単一層を一貫して上回ります。
論文 参考訳(メタデータ) (2025-04-30T09:07:10Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:45:03Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。