論文の概要: Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and
Fusion
- arxiv url: http://arxiv.org/abs/2006.08159v1
- Date: Mon, 15 Jun 2020 06:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:26:30.991330
- Title: Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and
Fusion
- Title(参考訳): 深層マルチモーダルデータ分析に関する調査 : コラボレーション,競合,融合
- Authors: Yang Wang
- Abstract要約: マルチモーダルまたはマルチビューデータは、各モーダル/ビューがデータオブジェクトの個々のプロパティをエンコードする、ビッグデータの主要なストリームとして急増している。
既存の最先端技術のほとんどは、より優れたパフォーマンスを実現するために、マルチモーダル空間からのエネルギーや情報を融合する方法に重点を置いている。
ディープニューラルネットワークは、高次元マルチメディアデータの非線形分布をうまく捉えるための強力なアーキテクチャとして現れてきた。
- 参考スコア(独自算出の注目度): 6.225190099424806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of web technology, multi-modal or multi-view data has
surged as a major stream for big data, where each modal/view encodes individual
property of data objects. Often, different modalities are complementary to each
other. Such fact motivated a lot of research attention on fusing the
multi-modal feature spaces to comprehensively characterize the data objects.
Most of the existing state-of-the-art focused on how to fuse the energy or
information from multi-modal spaces to deliver a superior performance over
their counterparts with single modal. Recently, deep neural networks have
exhibited as a powerful architecture to well capture the nonlinear distribution
of high-dimensional multimedia data, so naturally does for multi-modal data.
Substantial empirical studies are carried out to demonstrate its advantages
that are benefited from deep multi-modal methods, which can essentially deepen
the fusion from multi-modal deep feature spaces. In this paper, we provide a
substantial overview of the existing state-of-the-arts on the filed of
multi-modal data analytics from shallow to deep spaces. Throughout this survey,
we further indicate that the critical components for this field go to
collaboration, adversarial competition and fusion over multi-modal spaces.
Finally, we share our viewpoints regarding some future directions on this
field.
- Abstract(参考訳): Web技術の発展に伴い、マルチモーダルまたはマルチビューデータがビッグデータの主要なストリームとして急増し、各モーダル/ビューはデータオブジェクトの個々のプロパティをエンコードする。
しばしば異なるモダリティは互いに相補的である。
このような事実は、データオブジェクトを包括的に特徴付けるためにマルチモーダルな特徴空間を融合させることに多くの研究の関心を惹いた。
既存の最先端技術のほとんどは、マルチモーダル空間からエネルギーや情報を融合して、単一のモーダルを持つ彼らよりも優れたパフォーマンスを提供する方法に重点を置いている。
近年、ディープニューラルネットワークは、高次元マルチメディアデータの非線形分布をうまく捉えるための強力なアーキテクチャとして提示されている。
マルチモーダル深層特徴空間からの融合を本質的に深めることができる深層マルチモーダル手法の利点を実証するために実証的な研究が行われている。
本稿では,浅層から深層へのマルチモーダルデータ解析における既存技術の現状について概観する。
この調査を通じて,この分野の重要な要素はコラボレーション,敵対的競争,マルチモーダル空間上の融合であることが示唆された。
最後に、この分野の今後の方向性について、我々の見解を共有します。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method [3.0903319879656084]
本稿では,マルチモーダル情報の融合に革命をもたらす機能アライメントに対する革新的なアプローチを提案する。
提案手法では,異なるモードをまたいだ特徴表現の遠隔的変位と拡張の新たな反復的プロセスを用いて,共有特徴空間内の一貫性のある統一表現を導出する。
論文 参考訳(メタデータ) (2023-06-29T13:49:06Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Deep Learning in Multimodal Remote Sensing Data Fusion: A Comprehensive
Review [33.40031994803646]
本調査は,DLに基づくマルチモーダルRSデータ融合の体系的概要を示すことを目的としている。
マルチモーダルRSデータ融合におけるサブフィールドについて,to-be-fusedデータモダリティの観点から検討する。
残る課題と今後の方向性が強調される。
論文 参考訳(メタデータ) (2022-05-03T09:08:16Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。