論文の概要: Multimodal Fusion on Low-quality Data: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2404.18947v1
- Date: Sat, 27 Apr 2024 07:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:39:28.267418
- Title: Multimodal Fusion on Low-quality Data: A Comprehensive Survey
- Title(参考訳): 低品質データに対するマルチモーダルフュージョン:包括的調査
- Authors: Qingyang Zhang, Yake Wei, Zongbo Han, Huazhu Fu, Xi Peng, Cheng Deng, Qinghua Hu, Cai Xu, Jie Wen, Di Hu, Changqing Zhang,
- Abstract要約: 本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
- 参考スコア(独自算出の注目度): 110.22752954128738
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal fusion focuses on integrating information from multiple modalities with the goal of more accurate prediction, which has achieved remarkable progress in a wide range of scenarios, including autonomous driving and medical diagnosis. However, the reliability of multimodal fusion remains largely unexplored especially under low-quality data settings. This paper surveys the common challenges and recent advances of multimodal fusion in the wild and presents them in a comprehensive taxonomy. From a data-centric view, we identify four main challenges that are faced by multimodal fusion on low-quality data, namely (1) noisy multimodal data that are contaminated with heterogeneous noises, (2) incomplete multimodal data that some modalities are missing, (3) imbalanced multimodal data that the qualities or properties of different modalities are significantly different and (4) quality-varying multimodal data that the quality of each modality dynamically changes with respect to different samples. This new taxonomy will enable researchers to understand the state of the field and identify several potential directions. We also provide discussion for the open problems in this field together with interesting future research directions.
- Abstract(参考訳): マルチモーダル融合は、より正確な予測を目標として、複数のモーダルからの情報を統合することに焦点を当てており、自律運転や診断を含む幅広いシナリオにおいて顕著な進歩を遂げている。
しかし、マルチモーダル融合の信頼性は、特に低品質なデータ設定下では明らかにされていない。
本稿では,野生におけるマルチモーダル融合の共通課題と最近の進歩を調査し,それらを包括的分類法で示す。
データ中心の視点では,(1)不均質なノイズで汚染されるノイズの多いマルチモーダルデータ,(2)いくつかのモーダルが欠落している不完全なマルチモーダルデータ,(3)異なるモーダルの性質や性質が著しく異なる不均衡なマルチモーダルデータ,(4)各モーダルの品質が異なるサンプルに対して動的に変化する品質変化のマルチモーダルデータである。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
また、この分野のオープンな問題と、今後の興味深い研究の方向性についても論じる。
関連論文リスト
- MDA: An Interpretable Multi-Modal Fusion with Missing Modalities and Intrinsic Noise [6.612523356335498]
本稿では,モーダル・ドメイン・アテンション(MDA)を導入して,各モーダルの重みに対する適応調整を実現する,新しいマルチモーダル融合フレームワークを提案する。
本研究の目的は、欠落したモダリティや固有のノイズを取り入れつつ、マルチモーダル情報の融合を容易にし、マルチモーダルデータの表現を向上させることである。
論文 参考訳(メタデータ) (2024-06-15T09:08:58Z) - Multimodal Object Detection via Probabilistic a priori Information Integration [0.0]
マルチモーダル物体検出はリモートセンシングにおいて有望であることを示す。
本稿では,対象対象物を含む1つのモダリティのみを含むマルチモーダル物体検出について検討する。
本稿では,文脈のバイナリ情報を確率マップに変換することでアライメント問題を解決することを提案する。
論文 参考訳(メタデータ) (2024-05-24T14:28:06Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z) - Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and
Fusion [6.225190099424806]
マルチモーダルまたはマルチビューデータは、各モーダル/ビューがデータオブジェクトの個々のプロパティをエンコードする、ビッグデータの主要なストリームとして急増している。
既存の最先端技術のほとんどは、より優れたパフォーマンスを実現するために、マルチモーダル空間からのエネルギーや情報を融合する方法に重点を置いている。
ディープニューラルネットワークは、高次元マルチメディアデータの非線形分布をうまく捉えるための強力なアーキテクチャとして現れてきた。
論文 参考訳(メタデータ) (2020-06-15T06:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。