論文の概要: The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss
- arxiv url: http://arxiv.org/abs/2512.08374v1
- Date: Tue, 09 Dec 2025 08:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.88636
- Title: The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss
- Title(参考訳): 未確認のバイアス:プリノームMLLMにおけるノームの相違が視覚的情報損失につながる
- Authors: Bozhou Li, Xinda Xue, Sihan Yang, Yang Shi, Xinlong Chen, Yushuo Guan, Yuanxing Zhang, Wentao Zhang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、事前訓練された視覚エンコーダと言語モデルである。
ユビキタスなPre-Normアーキテクチャへの依存は、ハイノームのビジュアルトークンとローノームのテキストトークンの間に深刻な標準格差をもたらす。
視覚プロジェクタの後に、注意深く1つのLayerNorm層を挿入して、ノルムアライメントを強制する、シンプルで効果的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 15.598471176315913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs), which couple pre-trained vision encoders and language models, have shown remarkable capabilities. However, their reliance on the ubiquitous Pre-Norm architecture introduces a subtle yet critical flaw: a severe norm disparity between the high-norm visual tokens and the low-norm text tokens. In this work, we present a formal theoretical analysis demonstrating that this imbalance is not a static issue. Instead, it induces an ``asymmetric update dynamic,'' where high-norm visual tokens exhibit a ``representational inertia,'' causing them to transform semantically much slower than their textual counterparts. This fundamentally impairs effective cross-modal feature fusion. Our empirical validation across a range of mainstream MLLMs confirms that this theoretical dynamic -- the persistence of norm disparity and the resulting asymmetric update rates -- is a prevalent phenomenon. Based on this insight, we propose a remarkably simple yet effective solution: inserting a single, carefully initialized LayerNorm layer after the visual projector to enforce norm alignment. Experiments conducted on the LLaVA-1.5 architecture show that this intervention yields significant performance gains not only on a wide suite of multimodal benchmarks but also, notably, on text-only evaluations such as MMLU, suggesting that resolving the architectural imbalance leads to a more holistically capable model.
- Abstract(参考訳): 事前訓練された視覚エンコーダと言語モデルを組み合わせたMLLM(Multimodal Large Language Models)が注目に値する機能を示している。
しかし、ユビキタスなPre-Normアーキテクチャへの依存は微妙だが重大な欠陥をもたらす。
本研究では,この不均衡が静的問題ではないことを示す公式な理論的解析を行う。
代わりに、'`asymmetric update dynamic'' を誘導し、ハイノームな視覚トークンは '`representational inertia'' を示す。
これは、効果的にクロスモーダルな特徴融合を損なう。
MLLMの主流範囲にわたる実証的な検証は、この理論的ダイナミクス -- 標準格差の持続性と結果として生じる非対称な更新率 -- が一般的な現象であることを確認した。
この知見に基づいて、視覚プロジェクタの後に1つの慎重に初期化されたLayerNorm層を挿入し、ノルムアライメントを強制する、驚くほどシンプルで効果的なソリューションを提案する。
LLaVA-1.5アーキテクチャで実施された実験により、この介入は、幅広いマルチモーダルベンチマークだけでなく、特にMMLUのようなテキストのみの評価においても大きなパフォーマンス向上をもたらすことが示され、アーキテクチャの不均衡の解消は、より整合性のあるモデルをもたらすことが示唆された。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - NormXLogit: The Head-on-Top Never Lies [15.215985417763472]
本稿では,個々の入力トークンの意義を評価するための新しい手法を提案する。
この方法は各トークンに関連付けられた入力および出力表現に基づいて動作する。
我々は、トークンの重要性と、その表現がモデルの最終的な予測に類似できる範囲との間に有意な関係を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T10:12:27Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。