論文の概要: Dynamic Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2204.00102v1
- Date: Thu, 31 Mar 2022 21:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 13:52:03.996066
- Title: Dynamic Multimodal Fusion
- Title(参考訳): 動的マルチモーダル核融合
- Authors: Zihui Xue, Radu Marculescu
- Abstract要約: 動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
- 参考スコア(独自算出の注目度): 8.530680502975095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep multimodal learning has achieved great progress in recent years.
However, current fusion approaches are static in nature, i.e., they process and
fuse multimodal inputs with identical computation, without accounting for
diverse computational demands of different multimodal data. In this work, we
propose dynamic multimodal fusion (DynMM), a new approach that adaptively fuses
multimodal data and generates data-dependent forward paths during inference.
DynMM can reduce redundant computations for "easy" multimodal inputs (that can
be predicted correctly using only one modality or simple fusion techniques) and
retain representation power for "hard" samples by adopting all modalities and
complex fusion operations for prediction. Results on various multimodal tasks
demonstrate the efficiency and wide applicability of our approach. For
instance, DynMM can reduce the computation cost by 46.5% with a negligible
accuracy loss on CMU-MOSEI sentiment analysis. For RGB-D semantic segmentation
on NYU Depth data, DynMM achieves a +0.7% mIoU improvement with over 21%
reductions for the depth encoder when compared with strong baselines. We
believe this opens a novel direction towards dynamic multimodal network design,
with applications to a wide range of multimodal tasks.
- Abstract(参考訳): 深層マルチモーダル学習は近年大きな進歩を遂げている。
しかし、現在の融合アプローチは本質的に静的であり、異なるマルチモーダルデータの様々な計算要求を考慮せずに、同一の計算でマルチモーダル入力を処理し融合する。
本研究では,マルチモーダルデータを適応的に融合し,推論中にデータ依存のフォワードパスを生成する新しい手法であるdynamic multimodal fusion (dynmm)を提案する。
dynmmは、"簡単な"マルチモーダル入力(単一のモダリティと単純な融合技術だけで正しく予測できる)の冗長な計算を削減でき、全てのモダリティと複雑な融合操作を予測に取り入れることで、"ハード"サンプルの表現力を保持できる。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
例えば、dynmmは計算コストを46.5%削減でき、cmu-moseiの感情分析では精度が損なわれる。
NYU深度データ上のRGB-Dセマンティックセマンティックセグメンテーションでは、DynMMは強いベースラインと比較すると、深さエンコーダを21%以上削減する+0.7% mIoUの改善を実現している。
これはダイナミックなマルチモーダルネットワーク設計への新しい方向を開き、幅広いマルチモーダルタスクに応用できると考えています。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。