論文の概要: Understanding Unimodal Bias in Multimodal Deep Linear Networks
- arxiv url: http://arxiv.org/abs/2312.00935v2
- Date: Sun, 2 Jun 2024 01:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:11:43.070624
- Title: Understanding Unimodal Bias in Multimodal Deep Linear Networks
- Title(参考訳): 多モードディープ線形ネットワークにおける一様バイアスの理解
- Authors: Yedi Zhang, Peter E. Latham, Andrew Saxe,
- Abstract要約: ネットワークがひとつのモダリティを過度に依存し、共同トレーニング中に他を無視してしまうという、一元的バイアスが鍵となる課題だ。
アーキテクチャとデータ統計がこのバイアスにどのように影響するかを理解するために,マルチモーダル深層線形ネットワークを用いた一様偏差理論を開発した。
- 参考スコア(独自算出の注目度): 7.197469507060226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using multiple input streams simultaneously to train multimodal neural networks is intuitively advantageous but practically challenging. A key challenge is unimodal bias, where a network overly relies on one modality and ignores others during joint training. We develop a theory of unimodal bias with multimodal deep linear networks to understand how architecture and data statistics influence this bias. This is the first work to calculate the duration of the unimodal phase in learning as a function of the depth at which modalities are fused within the network, dataset statistics, and initialization. We show that the deeper the layer at which fusion occurs, the longer the unimodal phase. A long unimodal phase can lead to a generalization deficit and permanent unimodal bias in the overparametrized regime. Our results, derived for multimodal linear networks, extend to nonlinear networks in certain settings. Taken together, this work illuminates pathologies of multimodal learning under joint training, showing that late and intermediate fusion architectures can give rise to long unimodal phases and permanent unimodal bias. Our code is available at: https://yedizhang.github.io/unimodal-bias.html.
- Abstract(参考訳): 複数の入力ストリームを同時に使用してマルチモーダルニューラルネットワークをトレーニングすることは直感的に有利だが、実際は困難である。
ネットワークがひとつのモダリティを過度に依存し、共同トレーニング中に他を無視してしまうという、一元的バイアスが鍵となる課題だ。
アーキテクチャとデータ統計がこのバイアスにどのように影響するかを理解するために,マルチモーダル深層線形ネットワークを用いた一様偏差理論を開発した。
これは、ネットワーク内でモダリティが融合する深さ、データセット統計、初期化の関数として学習における一助相の持続時間を計算する最初の研究である。
核融合が起こる層が深くなるほど、単潮相は長くなることを示す。
長い一元性相は、過パラメトリズド政権における一般化の欠陥と永続的な一元性バイアスをもたらす可能性がある。
提案手法は,マルチモーダル線形ネットワークから導出された非線形ネットワークに,特定の設定で拡張する。
この研究は共同学習におけるマルチモーダル学習の病理学を照らし、後期と中期の融合アーキテクチャが長い単潮相と永続的な単潮偏差をもたらすことを示した。
私たちのコードは、https://yedizhang.github.io/unimodal-bias.htmlで公開されています。
関連論文リスト
- Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - UAMD-Net: A Unified Adaptive Multimodal Neural Network for Dense Depth
Completion [0.618778092044887]
両眼ステレオマッチングの融合とスパース点雲からの弱い制約に基づく,新しいマルチモーダルニューラルネットワークUAMD-Netを提案する。
提案手法はロバストな結果を生成し,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-16T12:49:50Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Analyzing Unaligned Multimodal Sequence via Graph Convolution and Graph
Pooling Fusion [28.077474663199062]
本稿では,マルチモーダルシーケンシャルデータモデリングにおけるグラフニューラルネットワーク(GNN)の有効性を検討するために,マルチモーダルグラフと呼ばれる新しいモデルを提案する。
グラフベースのモデルは、2つのベンチマークデータセット上で最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2020-11-27T06:12:14Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。