論文の概要: What Makes Multimodal Learning Better than Single (Provably)
- arxiv url: http://arxiv.org/abs/2106.04538v1
- Date: Tue, 8 Jun 2021 17:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:13:55.980018
- Title: What Makes Multimodal Learning Better than Single (Provably)
- Title(参考訳): シングル(おそらく)よりもマルチモーダル学習が優れている理由
- Authors: Yu Huang, Chenzhuang Du, Zihui Xue, Xuanyao Chen, Hang Zhao, Longbo
Huang
- Abstract要約: 複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
- 参考スコア(独自算出の注目度): 28.793128982222438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The world provides us with data of multiple modalities. Intuitively, models
fusingdata from different modalities outperform unimodal models, since more
informationis aggregated. Recently, joining the success of deep learning, there
is an influentialline of work on deep multimodal learning, which has remarkable
empirical resultson various applications. However, theoretical justifications
in this field are notablylacking.Can multimodal provably perform better than
unimodal? In this paper, we answer this question under a most popular
multimodal learningframework, which firstly encodes features from different
modalities into a commonlatent space and seamlessly maps the latent
representations into the task space. Weprove that learning with multiple
modalities achieves a smaller population risk thanonly using its subset of
modalities. The main intuition is that the former has moreaccurate estimate of
the latent space representation. To the best of our knowledge,this is the first
theoretical treatment to capture important qualitative phenomenaobserved in
real multimodal applications. Combining with experiment results, weshow that
multimodal learning does possess an appealing formal guarantee.
- Abstract(参考訳): 世界は複数のモダリティのデータを提供します。
直感的には、異なるモダリティからデータを取り出すモデルは、より多くの情報が集約されるため、ユニモーダルモデルより優れている。
近年,深層学習の成功にともなって,様々な応用に顕著な経験的結果をもたらす深層多モーダル学習の研究の影響力がある。
しかし、この分野における理論的な正当化は特に優れており、マルチモーダルはユニモーダルよりもうまく機能するか?
本稿では,まず,異なるモダリティの特徴を共通相対空間にエンコードし,潜在表現をタスク空間にシームレスにマッピングする,最も一般的なマルチモーダル学習枠組みによって,この疑問に答える。
複数のモダリティによる学習は、モダリティのサブセットを使用するよりも人口リスクが小さいことを証明している。
主な直観は、前者は潜在空間表現をより正確に見積もっていることである。
我々の知る限りでは、これは実際のマルチモーダルアプリケーションで観測された重要な定性的現象を捉える最初の理論的治療である。
実験結果と組み合わせることで,マルチモーダル学習には魅力的な形式的保証があることを示す。
関連論文リスト
- Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation [30.33381342502258]
主な課題はユニモーダルバイアス(unimodal bias)であり、マルチモーダルセグメンタが特定のモダリティに依存しているため、他のセグメンタが欠落するとパフォーマンスが低下する。
視覚的モダリティの組み合わせを扱える頑健なセグメンタを学習するための最初のフレームワークを開発する。
論文 参考訳(メタデータ) (2024-11-26T06:15:27Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - On the Computational Benefit of Multimodal Learning [3.4991031406102238]
特定の条件下では、マルチモーダル学習は計算量で指数関数的に一助学習を上回ることが示される。
具体的には,一助学習のためのNPハードな学習タスクを提案するが,時間内にはマルチモーダルアルゴリズムによって解ける。
論文 参考訳(メタデータ) (2023-09-25T00:20:50Z) - A Theory of Multimodal Learning [3.4991031406102238]
マルチモーダリティの研究は、マシンラーニングの分野において、比較的過小評価されている。
興味深い発見は、複数のモダリティで訓練されたモデルが、非モダリティタスクでも、微調整された非モダリティモデルより優れていることである。
本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することによって,この現象を説明する理論的枠組みを提供する。
論文 参考訳(メタデータ) (2023-09-21T20:05:49Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Multimodal Knowledge Expansion [14.332957885505547]
ラベルを必要とせずにマルチモーダルデータを利用する知識蒸留に基づくフレームワークを提案する。
我々は、マルチモーダルな学生モデルが一貫して疑似ラベルを否定し、教師よりも優れた一般化を示す。
論文 参考訳(メタデータ) (2021-03-26T12:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。