論文の概要: A Theory of Multimodal Learning
- arxiv url: http://arxiv.org/abs/2309.12458v2
- Date: Sat, 16 Dec 2023 01:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:08:43.502089
- Title: A Theory of Multimodal Learning
- Title(参考訳): マルチモーダル学習の理論
- Authors: Zhou Lu
- Abstract要約: マルチモーダリティの研究は、マシンラーニングの分野において、比較的過小評価されている。
興味深い発見は、複数のモダリティで訓練されたモデルが、非モダリティタスクでも、微調整された非モダリティモデルより優れていることである。
本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することによって,この現象を説明する理論的枠組みを提供する。
- 参考スコア(独自算出の注目度): 3.4991031406102238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human perception of the empirical world involves recognizing the diverse
appearances, or 'modalities', of underlying objects. Despite the longstanding
consideration of this perspective in philosophy and cognitive science, the
study of multimodality remains relatively under-explored within the field of
machine learning. Nevertheless, current studies of multimodal machine learning
are limited to empirical practices, lacking theoretical foundations beyond
heuristic arguments. An intriguing finding from the practice of multimodal
learning is that a model trained on multiple modalities can outperform a
finely-tuned unimodal model, even on unimodal tasks. This paper provides a
theoretical framework that explains this phenomenon, by studying generalization
properties of multimodal learning algorithms. We demonstrate that multimodal
learning allows for a superior generalization bound compared to unimodal
learning, up to a factor of $O(\sqrt{n})$, where $n$ represents the sample
size. Such advantage occurs when both connection and heterogeneity exist
between the modalities.
- Abstract(参考訳): 経験的世界に対する人間の知覚は、基礎となる物体の多様な外観や「モダリティ」を認識することを伴う。
哲学と認知科学におけるこの観点の長年の考察にもかかわらず、マルチモーダリティの研究は機械学習の分野において比較的過小評価されている。
しかし、現在のマルチモーダル機械学習の研究は経験的な実践に限られており、ヒューリスティックな議論以外の理論的な基礎を欠いている。
マルチモーダル学習の実践から興味深い発見は、複数のモーダルで訓練されたモデルが、単調なタスクであっても、微調整された単調なモデルよりも優れていることである。
本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することにより,この現象を説明する理論的枠組みを提案する。
マルチモーダル学習は、ユニモーダル学習に比べて優れた一般化が可能であり、最大で$o(\sqrt{n})$であり、ここでは$n$がサンプルサイズを表す。
このような利点は、モダリティ間の接続と不均一性の両方が存在するときに生じる。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - On Stronger Computational Separations Between Multimodal and Unimodal Machine Learning [0.0]
Lu (NeurIPS '23, ALT '24) はマルチモーダル学習の理論を導入する。
特に、Lu(ALT '24)は、学習タスクのtextitworst-caseインスタンスに関連する計算分離を示す。
基礎的な条件下では、平均ケースのユニモーダルとマルチモーダルの学習タスク間の任意の計算的分離が対応する暗号鍵合意プロトコルを意味することを証明している。
論文 参考訳(メタデータ) (2024-04-02T19:21:28Z) - On the Computational Benefit of Multimodal Learning [3.4991031406102238]
特定の条件下では、マルチモーダル学習は計算量で指数関数的に一助学習を上回ることが示される。
具体的には,一助学習のためのNPハードな学習タスクを提案するが,時間内にはマルチモーダルアルゴリズムによって解ける。
論文 参考訳(メタデータ) (2023-09-25T00:20:50Z) - Modality Influence in Multimodal Machine Learning [0.0]
本研究では,マルチモーダル感情分析,マルチモーダル感情認識,マルチモーダルヘイト音声認識,マルチモーダル病検出について検討した。
本研究の目的は、各タスクの最も影響力のあるモダリティやモダリティの集合を特定し、多様なマルチモーダル分類タスクの結論を引き出すことである。
論文 参考訳(メタデータ) (2023-06-10T16:28:52Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。