論文の概要: Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions
- arxiv url: http://arxiv.org/abs/2209.03430v1
- Date: Wed, 7 Sep 2022 19:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:26:47.011342
- Title: Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions
- Title(参考訳): マルチモーダル機械学習の基礎と最近の動向:原則,課題,オープンな質問
- Authors: Paul Pu Liang, Amir Zadeh, Louis-Philippe Morency
- Abstract要約: 本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
- 参考スコア(独自算出の注目度): 68.6358773622615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine learning is a vibrant multi-disciplinary research field
that aims to design computer agents with intelligent capabilities such as
understanding, reasoning, and learning through integrating multiple
communicative modalities, including linguistic, acoustic, visual, tactile, and
physiological messages. With the recent interest in video understanding,
embodied autonomous agents, text-to-image generation, and multisensor fusion in
application domains such as healthcare and robotics, multimodal machine
learning has brought unique computational and theoretical challenges to the
machine learning community given the heterogeneity of data sources and the
interconnections often found between modalities. However, the breadth of
progress in multimodal research has made it difficult to identify the common
themes and open questions in the field. By synthesizing a broad range of
application domains and theoretical frameworks from both historical and recent
perspectives, this paper is designed to provide an overview of the
computational and theoretical foundations of multimodal machine learning. We
start by defining two key principles of modality heterogeneity and
interconnections that have driven subsequent innovations, and propose a
taxonomy of 6 core technical challenges: representation, alignment, reasoning,
generation, transference, and quantification covering historical and recent
trends. Recent technical achievements will be presented through the lens of
this taxonomy, allowing researchers to understand the similarities and
differences across new approaches. We end by motivating several open problems
for future research as identified by our taxonomy.
- Abstract(参考訳): マルチモーダル機械学習(Multimodal machine learning)は、言語、音響、視覚、触覚、生理的メッセージを含む複数のコミュニケーションモダリティを統合することによって、理解、推論、学習といった知的能力を持つコンピュータエージェントを設計することを目的とした、活発な多分野の研究分野である。
最近のビデオ理解への関心、具体化された自律エージェント、テキストから画像への生成、医療やロボティクスなどのアプリケーションドメインにおけるマルチセンサー融合などにより、マルチモーダル機械学習は、データソースの多様性とモダリティの間によく見られる相互関係を考慮し、機械学習コミュニティにユニークな計算と理論的課題をもたらした。
しかし、マルチモーダル研究の進展により、この分野における共通のテーマや疑問の特定が困難になっている。
歴史的・最近の両視点から幅広いアプリケーションドメインと理論フレームワークを合成することにより,マルチモーダル機械学習の計算的・理論的基礎を概観する。
まず、モダリティの不均一性と相互接続の2つの重要な原則を定義し、表現、アライメント、推論、生成、転移、そして歴史的および最近のトレンドをカバーする6つの技術的な課題の分類を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
最後に、分類学によって特定された将来の研究のために、いくつかのオープンな問題を動機付けます。
関連論文リスト
- Foundations of Multisensory Artificial Intelligence [32.56967614091527]
この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。
第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。
第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
論文 参考訳(メタデータ) (2024-04-29T14:45:28Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Multimodal Foundation Models: From Specialists to General-Purpose
Assistants [187.72038587829223]
研究のランドスケープには5つの中核的なトピックが含まれており、2つのクラスに分類されている。
対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文 参考訳(メタデータ) (2023-09-18T17:56:28Z) - Machine Unlearning: A Survey [56.79152190680552]
プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。
この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。
この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。
この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
論文 参考訳(メタデータ) (2023-06-06T10:18:36Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Multimodality in Meta-Learning: A Comprehensive Survey [34.69292359136745]
このサーベイは、マルチモーダリティに基づくメタラーニングの展望を概観する。
我々はまず,メタラーニングとマルチモーダリティの定義と,この成長分野における研究課題を定式化する。
そこで我々は,マルチモーダルタスクと組み合わせた典型的なメタ学習アルゴリズムを体系的に議論する新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-09-28T09:16:12Z) - A Review on Explainability in Multimodal Deep Neural Nets [2.3204178451683264]
マルチモーダルAI技術は、いくつかのアプリケーションドメインで大きな成功を収めている。
その優れた性能にもかかわらず、深層ニューラルネットワークの複雑で不透明でブラックボックスな性質は、社会的受容と使用性を制限する。
本稿では,マルチモーダル深層ニューラルネットワークにおける説明可能性に関する包括的調査と解説を行うため,本論文を概説する。
論文 参考訳(メタデータ) (2021-05-17T14:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。