論文の概要: A Theory of Unimodal Bias in Multimodal Learning
- arxiv url: http://arxiv.org/abs/2312.00935v1
- Date: Fri, 1 Dec 2023 21:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:03:04.463445
- Title: A Theory of Unimodal Bias in Multimodal Learning
- Title(参考訳): マルチモーダル学習におけるユニモーダルバイアスの理論
- Authors: Yedi Zhang, Peter E. Latham, Andrew Saxe
- Abstract要約: 深層マルチモーダル線形ネットワークを用いた一様偏差理論を考案する。
長い一様相は、一般化の欠陥と恒久的一様偏差をもたらす可能性がある。
この研究は、ジョイントトレーニングにおけるマルチモーダルラーニングの病理を照らす。
- 参考スコア(独自算出の注目度): 8.089234432461806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using multiple input streams simultaneously in training multimodal neural
networks is intuitively advantageous, but practically challenging. A key
challenge is unimodal bias, where a network overly relies on one modality and
ignores others during joint training. While unimodal bias is well-documented
empirically, our theoretical understanding of how architecture and data
statistics influence this bias remains incomplete. Here we develop a theory of
unimodal bias with deep multimodal linear networks. We calculate the duration
of the unimodal phase in learning as a function of the depth at which
modalities are fused within the network, dataset statistics, and
initialization. We find that the deeper the layer at which fusion occurs, the
longer the unimodal phase. A long unimodal phase can lead to a generalization
deficit and permanent unimodal bias in the overparametrized regime. In
addition, our theory reveals the modality learned first is not necessarily the
modality that contributes more to the output. Our results, derived for
multimodal linear networks, extend to ReLU networks in certain settings. Taken
together, this work illuminates pathologies of multimodal learning under joint
training, showing that late and intermediate fusion architectures can give rise
to long unimodal phases and permanent unimodal bias.
- Abstract(参考訳): マルチモーダルニューラルネットワークのトレーニングで同時に複数の入力ストリームを使用することは直感的に有利だが、実際は困難である。
鍵となる課題はユニモーダルバイアスであり、ネットワークは一方のモダリティを過度に頼り、共同トレーニング中に他者を無視している。
ユニモーダルバイアスは実証的によく文書化されているが、アーキテクチャとデータ統計がこのバイアスにどのように影響するかに関する理論的理解はいまだ不完全である。
本稿では,マルチモーダル線形ネットワークを用いた一様バイアスの理論を展開する。
学習における一様相の持続時間を、ネットワーク内でモーダルが融合される深さ、データセット統計、初期化の関数として計算する。
核融合が起こる層が深ければ深いほど、ユニモーダル相は長くなる。
長いユニモーダル位相は、過剰パラメータ化状態における一般化欠陥と恒久的なユニモーダルバイアスをもたらす可能性がある。
さらに,本理論は,まず学習したモダリティが出力に寄与するモダリティであるとは限らないことを明らかにする。
この結果はマルチモーダル線形ネットワークに導出され,特定の設定でreluネットワークに拡張される。
この研究は共同学習におけるマルチモーダル学習の病理学を照らし、後期と中期の融合アーキテクチャが長い単潮相と永続的な単潮偏差をもたらすことを示した。
関連論文リスト
- Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - UAMD-Net: A Unified Adaptive Multimodal Neural Network for Dense Depth
Completion [0.618778092044887]
両眼ステレオマッチングの融合とスパース点雲からの弱い制約に基づく,新しいマルチモーダルニューラルネットワークUAMD-Netを提案する。
提案手法はロバストな結果を生成し,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-16T12:49:50Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Analyzing Unaligned Multimodal Sequence via Graph Convolution and Graph
Pooling Fusion [28.077474663199062]
本稿では,マルチモーダルシーケンシャルデータモデリングにおけるグラフニューラルネットワーク(GNN)の有効性を検討するために,マルチモーダルグラフと呼ばれる新しいモデルを提案する。
グラフベースのモデルは、2つのベンチマークデータセット上で最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2020-11-27T06:12:14Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。