Fugu-MT 論文翻訳(概要): LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models

論文の概要: LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2507.19110v1
Date: Fri, 25 Jul 2025 09:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-28 16:16:48.904729
Title: LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models
Title（参考訳）: LISA:マルチモーダル大言語モデルにおけるハロシン化緩和のための階層的統合と抑制手法
Authors: Zhihui Guo, Xin Man, Hui Xu, Jie Shao,
Abstract要約: MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
参考スコア（独自算出の注目度）: 8.122679857175315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) excel in vision-language tasks such as image captioning but remain prone to object hallucinations, where they describe objects that do not appear in the image. To mitigate this, we propose \textbf{LISA}, a \textbf{L}ayer-wise \textbf{I}ntegration and \textbf{S}uppression \textbf{A}pproach that enhances generation consistency through hierarchical modulation and multi-layer fusion. LISA leverages the functional hierarchy within MLLMs, where shallow layers provide visual grounding, middle layers encode semantics, and deep layers tend to amplify spurious signals. First, zone-specific spectral modulation stabilizes attention by suppressing over-amplified activations in deeper layers while preserving alignment cues in earlier layers. Second, token-level logits from selected layers are fused via anchor-based routing, with token-wise anchor selection and soft logit fusion enabling adaptive integration during decoding. LISA is fully \textbf{plug-and-play} and can be seamlessly integrated into existing MLLMs, including Qwen2.5-VL. Experiments on multiple benchmarks show that LISA reduces hallucinations by up to 53.6\% in $\mathrm{CHAIR}_I$ and improves POPE F1 by 4.5\%, demonstrating strong generalization across models and tasks.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、画像キャプションのような視覚的なタスクを排他的に行うが、画像に現れないオブジェクトを記述するために、オブジェクト幻覚を伴わない。これを緩和するために、階層的変調と多層融合による生成一貫性を高めるための \textbf{L}ayer-wise \textbf{I}ntegration と \textbf{S}uppression \textbf{A}pproach を提案する。 LISAはMLLM内の機能的階層を利用しており、浅い層は視覚的な接地を提供し、中層は意味論をエンコードし、深い層は刺激的な信号を増幅する傾向がある。第一に、ゾーン特異的スペクトル変調は、より深い層における過度に増幅された活性化を抑えつつ、以前の層におけるアライメントキューを保ち、注意を安定化させる。第二に、選択されたレイヤからのトークンレベルのロジットは、アンカーベースのルーティングによって融合され、トークンワイドアンカー選択とソフトロジット融合により、デコーディング中に適応的な統合が可能になる。 LISA は完全に \textbf{plug-and-play} で、Qwen2.5-VL を含む既存の MLLM にシームレスに統合できる。複数のベンチマークの実験では、LISA は $\mathrm{CHAIR}_I$ で 53.6 % の幻覚を減らし、POPE F1 を4.5 % 改善し、モデルやタスク間の強力な一般化を実証している。

関連論文リスト

ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way [7.18701660596182]
ByDeWayは、MLLM(Multimodal Large Language Models)のパフォーマンスを向上させるために設計された、トレーニング不要のフレームワークである。 ByDeWayはLayered-Depth-Based Prompting(LDP)と呼ばれる新しいプロンプト戦略を使っているシーンを単眼深度推定を用いて最も近い中距離層と最も遠い層に分割し、接地された視覚言語モデルで領域固有のキャプションを生成する。
論文参考訳（メタデータ） (2025-07-11T15:21:49Z)
Rethinking Visual Layer Selection in Multimodal LLMs [46.091556112958884]
この研究は、浅い、中、深いカテゴリに類似した振る舞いを持つグループCLIP-ViT層に対するレイヤワイズ類似性アプローチを提案する。大規模MLLMにおける視覚層選択問題を再考し,1.4Bから7BまでのLLaVAスタイルのモデルを訓練する。 1) 深層はOCRタスクに必須であり,(2) 浅層と中層はカウント,位置決め,オブジェクトの局所化を含む推論タスクにおいて実質的に深層を上回り,(3) 浅層,中層,深層をまたいだ軽量な融合は,専門的な融合ベースラインと単一層を一貫して上回ります。
論文参考訳（メタデータ） (2025-04-30T09:07:10Z)
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文参考訳（メタデータ） (2025-04-20T16:14:28Z)
LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文参考訳（メタデータ） (2025-02-17T03:45:03Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文参考訳（メタデータ） (2024-12-18T14:07:46Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文参考訳（メタデータ） (2024-10-08T11:41:55Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。 VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。