論文の概要: A Closer Look at Multimodal Representation Collapse
- arxiv url: http://arxiv.org/abs/2505.22483v1
- Date: Wed, 28 May 2025 15:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.696428
- Title: A Closer Look at Multimodal Representation Collapse
- Title(参考訳): マルチモーダル表現の崩壊について
- Authors: Abhra Chaudhuri, Anjan Dutta, Tu Bui, Serban Georgescu,
- Abstract要約: モーダリティの崩壊は、あるモーダリティからのノイズが、融合ヘッド内のニューロンの共有セットを介して、他のモーダリティからの予測的特徴によって絡み合っているときに起こることを示す。
本稿では,モダリティの欠如に対処する手法として,モダリティの崩壊を防止するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.399005128036746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to develop a fundamental understanding of modality collapse, a recently observed empirical phenomenon wherein models trained for multimodal fusion tend to rely only on a subset of the modalities, ignoring the rest. We show that modality collapse happens when noisy features from one modality are entangled, via a shared set of neurons in the fusion head, with predictive features from another, effectively masking out positive contributions from the predictive features of the former modality and leading to its collapse. We further prove that cross-modal knowledge distillation implicitly disentangles such representations by freeing up rank bottlenecks in the student encoder, denoising the fusion-head outputs without negatively impacting the predictive features from either modality. Based on the above findings, we propose an algorithm that prevents modality collapse through explicit basis reallocation, with applications in dealing with missing modalities. Extensive experiments on multiple multimodal benchmarks validate our theoretical claims. Project page: https://abhrac.github.io/mmcollapse/.
- Abstract(参考訳): 我々は、最近観察された経験的現象であるモダリティ崩壊の基本的な理解を開発することを目的としており、マルチモーダル融合のために訓練されたモデルは、残りの部分を無視して、モダリティのサブセットにのみ依存する傾向にある。
モーダリティの崩壊は、あるモーダリティのノイズ特性が融合ヘッド内のニューロンの共有セットを介して絡み合っているときに起こり、他のモーダリティの予測特性からの肯定的な寄与を効果的に隠蔽し、その崩壊につながることを示す。
さらに, 学生エンコーダのランクボトルネックを解放し, いずれのモダリティから予測的特徴に悪影響を及ぼすことなく, 融合ヘッド出力をデノベートすることにより, クロスモーダルな知識蒸留がこれらの表現を暗黙的に歪めることを証明する。
以上の知見に基づいて,モダリティの欠落に対処する手法として,モダリティの崩壊を防止するアルゴリズムを提案する。
複数のマルチモーダルベンチマークに関する大規模な実験は、我々の理論的な主張を検証する。
プロジェクトページ: https://abhrac.github.io/mmcollapse/。
関連論文リスト
- Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。
特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。
9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文 参考訳(メタデータ) (2024-07-23T04:22:30Z) - Pushing Boundaries: Mixup's Influence on Neural Collapse [3.6919724596215615]
Mixupは、深層ニューラルネットワークの堅牢性とキャリブレーションを強化するために、トレーニングインスタンスと各ラベルの凸結合を利用するデータ拡張戦略である。
本研究では,ミックスアップを受ける深層ネットワークにおけるトレーニングデータの最終層活性化について検討した。
ここでは,Mixupの最終層活性化が,期待と異なる独特の構成に主に収束していることを示す。
論文 参考訳(メタデータ) (2024-02-09T04:01:25Z) - Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。
既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。
初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - UniCat: Crafting a Stronger Fusion Baseline for Multimodal
Re-Identification [0.9831489366502301]
遅延融合法は, 単独でモダリティを訓練する手法と比較して, 最適潜伏表現をしばしば生み出すことを示す。
この効果は主に、核融合の際の個々のモダリティに対するトレーニング目標の意図しない緩和によるものであると我々は主張する。
また,UniCat(uniCat)や,非modalバックボーン(unimodal backbones)の遅延アンサンブルが,複数のマルチモーダルReIDベンチマークで現在最先端の性能を上回っていることも確認した。
論文 参考訳(メタデータ) (2023-10-28T20:30:59Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。