論文の概要: Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2602.23136v1
- Date: Thu, 26 Feb 2026 15:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.762019
- Title: Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs
- Title(参考訳): ミスマッチデコードとしてのモダリティの崩壊:マルチモーダルLLMの情報理論限界
- Authors: Jayadev Billa,
- Abstract要約: マルチモーダルLLMは音声や画像を処理することができるが、話者の声や物体のテクスチャを見ることはできない。
これは符号化の失敗ではないが、64~71%のモダリティ特異的な分散がデコーダの損失を改善することが示されている。
感情目標を用いたトレーニングは、他の属性に影響を与えることなく、感情のアクセシビリティを向上させる。
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal LLMs can process speech and images, but they cannot hear a speaker's voice or see an object's texture. We show this is not a failure of encoding: speaker identity, emotion, and visual attributes survive through every LLM layer (3--55$\times$ above chance in linear probes), yet removing 64--71% of modality-specific variance improves decoder loss. The decoder has no learned use for these directions; their presence is noise. We formalize this as a mismatched decoder problem: a decoder trained on text can only extract information along text-aligned directions. Accessible information is bounded by the Generalized Mutual Information (GMI), with degradation scaling with distributional distance and decoder sensitivity. The bound is a property of the decoder's scoring rule, not of any particular architecture; it applies whether non-text inputs arrive through a learned projection, a discrete codebook, or no explicit adapter at all. We validate this across five models spanning speech and vision. A controlled experiment (two Prismatic VLMs differing only in encoder text-alignment) confirms the bottleneck is the decoder's scoring rule, not the encoder or projection. A LoRA intervention demonstrates the fix: training with an emotion objective improves emotion accessibility ($+$7.5%) without affecting other attributes, confirming that the training objective determines what becomes accessible.
- Abstract(参考訳): マルチモーダルLLMは音声や画像を処理することができるが、話者の声や物体のテクスチャを見ることはできない。
話者のアイデンティティ、感情、視覚的属性は全てのLLM層を通して生存する(3-55$\times$以上の確率で線形プローブ)が、64-71%のモダリティ特異的な分散はデコーダの損失を改善する。
デコーダはこれらの方向の使い方を学ばず、その存在はノイズである。
テキストで訓練されたデコーダは、テキスト整列方向に沿った情報のみを抽出できる。
アクセシブル情報は一般相互情報(GMI)によってバウンダリされ、分散距離とデコーダ感度で分解スケーリングされる。
境界は、特定のアーキテクチャではなく、デコーダのスコアリングルールの特性であり、非テキスト入力が学習されたプロジェクション、離散コードブック、明示的なアダプタを経由するかどうかを適用できる。
音声と視覚にまたがる5つのモデルにまたがってこれを検証する。
制御された実験(エンコーダのテキストアライメントでのみ異なる2つのPrismatic VLM)では、ボトルネックはデコーダのスコアリングルールであり、エンコーダやプロジェクションではないことを確認した。
感情目標によるトレーニングは、他の属性に影響を与えることなく、感情アクセシビリティを向上させる(+$7.5%)。
関連論文リスト
- OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence [113.73007911004446]
OneVision-Encoderは、視覚構造を意味的な意味に圧縮することでビデオをエンコードする。
Codec-aligned, patch-level sparsityは基本的な原則であり、次世代のビジュアルジェネラリストのためのスケーラブルなエンジンとしてOV-Encoderを可能にする。
論文 参考訳(メタデータ) (2026-02-09T14:06:17Z) - Exploring the Potential of Encoder-free Architectures in 3D LMMs [40.43146298677712]
本稿では,エンコーダをベースとした3次元大規模マルチモーダルモデルの課題を軽減するために,エンコーダフリーアーキテクチャの可能性を初めて包括的に検討する。
以上の結果から,エンコーダフリーアーキテクチャは3次元理解分野におけるエンコーダベースアーキテクチャの代替として有望であることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:59:45Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Detecting Backdoors in Pre-trained Encoders [25.105186092387633]
プリトレーニングエンコーダの最初のバックドア検出手法であるDECREEを提案する。
我々は,ImageNetとOpenAIのCLIP 4億画像テキストペアで事前学習した画像エンコーダに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-23T19:04:40Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。