論文の概要: Vision+X: A Survey on Multimodal Learning in the Light of Data
- arxiv url: http://arxiv.org/abs/2210.02884v1
- Date: Wed, 5 Oct 2022 13:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:53:36.109210
- Title: Vision+X: A Survey on Multimodal Learning in the Light of Data
- Title(参考訳): Vision+X: データの光におけるマルチモーダル学習に関する調査
- Authors: Ye Zhu, Yu Wu, Nicu Sebe, Yan Yan
- Abstract要約: 様々なモダリティのデータを組み込んだマルチモーダル機械学習は、ますます人気のある研究分野になりつつある。
我々は、視覚、音声、テキストなど、各データフォーマットの共通点と特異点を分析し、Vision+Xの組み合わせによって分類された技術開発を提示する。
- 参考スコア(独自算出の注目度): 71.07658443380264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We are perceiving and communicating with the world in a multisensory manner,
where different information sources are sophisticatedly processed and
interpreted by separate parts of the human brain to constitute a complex, yet
harmonious and unified sensing system. To endow the machines with true
intelligence, the multimodal machine learning that incorporates data from
various modalities has become an increasingly popular research area with
emerging technical advances in recent years. In this paper, we present a survey
on multimodal machine learning from a novel perspective considering not only
the purely technical aspects but also the nature of different data modalities.
We analyze the commonness and uniqueness of each data format ranging from
vision, audio, text and others, and then present the technical development
categorized by the combination of Vision+X, where the vision data play a
fundamental role in most multimodal learning works. We investigate the existing
literature on multimodal learning from both the representation learning and
downstream application levels, and provide an additional comparison in the
light of their technical connections with the data nature, e.g., the semantic
consistency between image objects and textual descriptions, or the rhythm
correspondence between video dance moves and musical beats. The exploitation of
the alignment, as well as the existing gap between the intrinsic nature of data
modality and the technical designs, will benefit future research studies to
better address and solve a specific challenge related to the concrete
multimodal task, and to prompt a unified multimodal machine learning framework
closer to a real human intelligence system.
- Abstract(参考訳): 我々は、異なる情報ソースが高度に処理され、人間の脳の別々の部分によって解釈され、複雑で調和し、統一された知覚システムを構成する多感覚的な方法で世界と認識し、コミュニケーションしている。
機械に真の知性を授けるために、様々なモダリティからデータを取り入れたマルチモーダル機械学習は、近年、技術進歩とともに、ますます人気が高まっている。
本稿では、純粋に技術的な側面だけでなく、異なるデータモダリティの性質も考慮した新しい視点から、マルチモーダル機械学習に関する調査を行う。
視覚,音声,テキストなど,各データフォーマットの共通点と特異点を分析し,視覚データが多くのマルチモーダル学習作業において基本的な役割を果たすビジョン+Xの組み合わせによって分類された技術開発を提示する。
本研究では,表現学習レベルと下流アプリケーションレベルの両方から既存のマルチモーダル学習に関する文献を調査し,画像オブジェクトとテキスト記述間の意味的一貫性や,ビデオダンスの動きと音楽のビートとのリズム対応など,データの性質との技術的関係の観点から,さらなる比較を行う。
データモダリティの本質的性質と技術的な設計との間の既存のギャップに加えて、アライメントの活用は、具体的なマルチモーダルタスクに関連する特定の課題に対処し解決し、真の人間の知能システムに近い統一されたマルチモーダル機械学習フレームワークを促進するために、将来の研究研究に役立つだろう。
関連論文リスト
- Learning on Multimodal Graphs: A Survey [6.362513821299131]
マルチモーダルデータは医療、ソーシャルメディア、交通など様々な領域に及んでいる。
マルチモーダルグラフ学習(MGL)は、人工知能(AI)アプリケーションの成功に不可欠である。
論文 参考訳(メタデータ) (2024-02-07T23:50:00Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Multimodal Co-learning: Challenges, Applications with Datasets, Recent
Advances and Future Directions [2.064612766965483]
マルチモーダルディープラーニングシステムは、テキスト、画像、オーディオ、ビデオなど、複数のモードを使用する。
モダリティのモデリングは、モダリティ間の知識の伝達を用いて、他の(リソースに富んだ)モダリティからの知識を活用することで支援される。
本稿では,コラーニングと関連する実装の課題に基づいて,マルチモーダル・コラーニングの包括的分類について述べる。
論文 参考訳(メタデータ) (2021-07-29T07:25:21Z) - Contrastive Representation Learning: A Framework and Review [2.7393821783237184]
コントラスト学習の起源は1990年代まで遡り、その発展は多くの分野に及んでいる。
本稿では,多くの異なるコントラスト学習手法を単純化し,統一する一般的なコントラスト表現学習フレームワークを提案する。
コンピュータビジョンや自然言語処理,音声処理など,強化学習においても,コントラスト学習が適用された例も紹介されている。
論文 参考訳(メタデータ) (2020-10-10T22:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。