Fugu-MT 論文翻訳(概要): Provable Dynamic Fusion for Low-Quality Multimodal Data

論文の概要: Provable Dynamic Fusion for Low-Quality Multimodal Data

arxiv url: http://arxiv.org/abs/2306.02050v2
Date: Tue, 6 Jun 2023 13:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 12:10:05.268534
Title: Provable Dynamic Fusion for Low-Quality Multimodal Data
Title（参考訳）: 低品質マルチモーダルデータのための確率動的融合
Authors: Qingyang Zhang, Haitao Wu, Changqing Zhang, Qinghua Hu, Huazhu Fu, Joey Tianyi Zhou, Xi Peng
Abstract要約: 動的マルチモーダル融合は、有望な学習パラダイムとして現れる。広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。 QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
参考スコア（独自算出の注目度）: 94.39538027450948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The inherent challenge of multimodal fusion is to precisely capture the cross-modal correlation and flexibly conduct cross-modal interaction. To fully release the value of each modality and mitigate the influence of low-quality multimodal data, dynamic multimodal fusion emerges as a promising learning paradigm. Despite its widespread use, theoretical justifications in this field are still notably lacking. Can we design a provably robust multimodal fusion method? This paper provides theoretical understandings to answer this question under a most popular multimodal fusion framework from the generalization perspective. We proceed to reveal that several uncertainty estimation solutions are naturally available to achieve robust multimodal fusion. Then a novel multimodal fusion framework termed Quality-aware Multimodal Fusion (QMF) is proposed, which can improve the performance in terms of classification accuracy and model robustness. Extensive experimental results on multiple benchmarks can support our findings.
Abstract（参考訳）: マルチモーダル融合の固有の課題は、クロスモーダル相関を正確に捉え、柔軟にクロスモーダル相互作用を実行することである。各モダリティの値を完全に解放し、低品質のマルチモーダルデータの影響を軽減するために、有望な学習パラダイムとして動的マルチモーダル融合が出現する。広く使われているにもかかわらず、この分野の理論的正当化はまだ顕著に欠けている。実現可能なロバストなマルチモーダル融合法を設計できるか? 本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。我々は、堅牢なマルチモーダル融合を実現するために、いくつかの不確実性推定ソリューションが自然に利用可能であることを明らかにする。そこで,QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。複数のベンチマークで大規模な実験結果が得られた。

関連論文リスト

MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning [12.821814562210632]
本稿では,マルチモーダルアテンションに基づく正規化フロー(MANGO)アプローチを提案する。マルチモーダルデータのための正規化フローベースモデルを開発するために,新しい非可逆クロスアテンション層を提案する。また,MMCA(Modality-to-Modality Cross-Attention),IMCA(Inter-Modality Cross-Attention),ICA(Learable Inter-Modality Cross-Attention)の3つの新しいクロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-08-13T18:56:57Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Predictive Dynamic Fusion [45.551196908423606]
マルチモーダル学習のための予測動的融合(PDF)フレームワークを提案する。予測可能なコラボレーティブ・リーフ (Co-Belief) とモノ・アンド・ホロ・信頼(英語版)を導出し、一般化誤差の上限を確実に減少させる。
論文参考訳（メタデータ） (2024-06-07T10:06:13Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文参考訳（メタデータ） (2024-04-27T07:22:28Z)
Quantifying and Enhancing Multi-modal Robustness with Modality Preference [9.367733452960492]
マルチモーダルモデルは、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。より大きいユニモーダル表現マージンとより信頼性の高いモダリティの統合は、より高いロバスト性を達成するために必須の要素である。理論的な発見に触発されて,認証ロバストマルチモーダルトレーニング(Certible Robust Multi-modal Training)と呼ばれるトレーニング手順を導入する。
論文参考訳（メタデータ） (2024-02-09T08:33:48Z)
Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。 BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文参考訳（メタデータ） (2023-06-29T03:02:20Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)
Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文参考訳（メタデータ） (2021-12-22T21:10:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。