論文の概要: Seeing Right but Saying Wrong: Inter- and Intra-Layer Refinement in MLLMs without Training
- arxiv url: http://arxiv.org/abs/2601.07359v1
- Date: Mon, 12 Jan 2026 09:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.318958
- Title: Seeing Right but Saying Wrong: Inter- and Intra-Layer Refinement in MLLMs without Training
- Title(参考訳): 正しいものの間違いを言う:訓練無しのMLLMにおける層間および層内リファインメント
- Authors: Shezheng Song, Shasha Li, Jie Yu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにまたがる強力な機能を示す。
深い層は正しい視覚領域に付随する可能性があるが、最終的な予測は以前の層からの騒々しい注意によってしばしば誤解される。
我々は、追加の訓練をせずに視覚的理解を高めるデュアルパースペクティブな復号化戦略であるDualPDを提案する。
- 参考スコア(独自算出の注目度): 7.511262066889113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated strong capabilities across a variety of vision-language tasks. However, their internal reasoning often exhibits a critical inconsistency: although deeper layers may attend to the correct visual regions, final predictions are frequently misled by noisy attention from earlier layers. This results in a disconnect between what the model internally understands and what it ultimately expresses, a phenomenon we describe as seeing it right but saying it wrong. To address this issue, we propose DualPD, a dual-perspective decoding refinement strategy that enhances the visual understanding without any additional training. DualPD consists of two components. (1) The layer-wise attention-guided contrastive logits module captures how the belief in the correct answer evolves by comparing output logits between layers that exhibit the largest attention shift. (2) The head-wise information filtering module suppresses low-contribution attention heads that focus on irrelevant regions, thereby improving attention quality within each layer. Experiments conducted on both the LLaVA and Qwen-VL model families across multiple multimodal benchmarks demonstrate that DualPD consistently improves accuracy without training, confirming its effectiveness and generalizability. The code will be released upon publication.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにまたがる強力な機能を示す。
深い層は正しい視覚領域に付随することがあるが、最終的な予測は以前の層からの騒々しい注意によってしばしば誤解される。
この結果、モデルの内部で理解されているものと最終的に表現されるものとの間には断絶が生じます。
この問題に対処するために、追加のトレーニングを伴わずに視覚的理解を高めるデュアルパースペクティブな復号化戦略であるDualPDを提案する。
DualPDは2つのコンポーネントから構成される。
1) 注意誘導型コントラッシブロジットモジュールは,最大の注意変化を示す層間の出力ロジットを比較することで,正しい回答に対する信念がどのように進化するかを捉える。
2) 頭部情報フィルタリングモジュールは,無関係領域に着目した低コントリビューションアテンションアテンションヘッドを抑え,各層におけるアテンションクオリティを向上させる。
複数のマルチモーダルベンチマークにおけるLLaVAモデルとQwen-VLモデルの両方の実験により、DualPDはトレーニングなしで常に精度を向上し、その有効性と一般化性を確認した。
コードは公開時に公開される。
関連論文リスト
- Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - Labels or Input? Rethinking Augmentation in Multimodal Hate Detection [9.166963162285064]
マルチモーダルヘイト検出を改善するために,マルチモーダルヘイト検出法を提案する。
まず、素早い構造、監督、訓練のモダリティを体系的に変化させるプロンプト最適化フレームワークを提案する。
次に,2,479個の正中性ミームを生成するマルチモーダルデータ拡張パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-15T21:31:00Z) - Dual-branch Prompting for Multimodal Machine Translation [9.903997553625253]
本稿では,D2P-MMTを提案する。D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT)。
D2P-MMTは、事前学習した拡散モデルによって生成されたソーステキストと再構成画像のみを必要とする。
Multi30Kデータセットの実験により、D2P-MMTは既存の最先端手法よりも優れた翻訳性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-23T15:22:51Z) - MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding [24.731387422897644]
マルチモーダル大言語モデル(MLLM)は、最近、複数のモーダル間のデータ統合において強力な能力を示した。
Modular Duplex Attention (MODA)は、インナー・モーダル・リファインメントとインターモーダル・インタラクションを同時に行う。
21のベンチマークデータセットの実験は、知覚、認知、感情タスクにおけるMODAの有効性を検証する。
論文 参考訳(メタデータ) (2025-07-07T03:37:42Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models [16.91226496250909]
マルチモーダルな理解は、粗いものから細かいものへと、2つの段階に分けられる。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的なプロンプトエンジニアリングにより、関連する領域に対するモデルの焦点をさらに強化する。
論文 参考訳(メタデータ) (2024-12-22T05:42:40Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。