論文の概要: Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably)
- arxiv url: http://arxiv.org/abs/2203.12221v1
- Date: Wed, 23 Mar 2022 06:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 16:37:39.201967
- Title: Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably)
- Title(参考訳): モダリティコンペティション: ディープラーニングにおいて、マルチモーダルネットワークの合同トレーニングが失敗する理由
(おそらく)
- Authors: Yu Huang and Junyang Lin and Chang Zhou and Hongxia Yang and Longbo
Huang
- Abstract要約: 最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
- 参考スコア(独自算出の注目度): 75.38159612828362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of deep multi-modal learning in practice, it
has not been well-explained in theory. Recently, it has been observed that the
best uni-modal network outperforms the jointly trained multi-modal network,
which is counter-intuitive since multiple signals generally bring more
information. This work provides a theoretical explanation for the emergence of
such performance gap in neural networks for the prevalent joint training
framework. Based on a simplified data distribution that captures the realistic
property of multi-modal data, we prove that for the multi-modal late-fusion
network with (smoothed) ReLU activation trained jointly by gradient descent,
different modalities will compete with each other. The encoder networks will
learn only a subset of modalities. We refer to this phenomenon as modality
competition. The losing modalities, which fail to be discovered, are the
origins where the sub-optimality of joint training comes from. Experimentally,
we illustrate that modality competition matches the intrinsic behavior of
late-fusion joint training.
- Abstract(参考訳): 実際に深いマルチモーダル学習が成功したにもかかわらず、理論上はよく説明されていない。
近年,複数の信号がより多くの情報をもたらすため,協調学習されたマルチモーダルネットワークよりも優れたユニモーダルネットワークが提案されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
マルチモーダルデータの現実的特性をキャプチャする簡易データ分布に基づき,勾配降下によって協調的に訓練された(スムース)reluアクティベーションを持つマルチモーダルレイトフュージョンネットワークにおいて,異なるモーダル性が競合することを証明した。
エンコーダネットワークは、モダリティのサブセットのみを学習する。
この現象をモダリティ競争と呼ぶ。
発見に失敗したモダリティの喪失は、合同トレーニングのサブオプティリティ(sub-optimality)の起源である。
実験により, モダリティ・コンペティションが, 後期輸液合同訓練の固有行動に合致することを示す。
関連論文リスト
- Multimodal Fusion Balancing Through Game-Theoretic Regularization [3.2065271838977627]
アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Understanding Unimodal Bias in Multimodal Deep Linear Networks [7.197469507060226]
ネットワークがひとつのモダリティを過度に依存し、共同トレーニング中に他を無視してしまうという、一元的バイアスが鍵となる課題だ。
アーキテクチャとデータ統計がこのバイアスにどのように影響するかを理解するために,マルチモーダル深層線形ネットワークを用いた一様偏差理論を開発した。
論文 参考訳(メタデータ) (2023-12-01T21:29:54Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - MMANet: Margin-aware Distillation and Modality-aware Regularization for
Incomplete Multimodal Learning [4.647741695828225]
MMANetは、不完全なマルチモーダル学習を支援するフレームワークである。
推論に使用されるデプロイメントネットワーク、包括的なマルチモーダル情報の転送を行う教師ネットワーク、弱いモダリティの組み合わせのバランスをとるためにデプロイメントネットワークを導く正規化ネットワークの3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-04-17T07:22:15Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。