論文の概要: ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion
- arxiv url: http://arxiv.org/abs/2507.05624v1
- Date: Tue, 08 Jul 2025 03:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.540621
- Title: ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion
- Title(参考訳): ADMC: 注意に基づくモーダリティ特徴補完のための拡散モデル
- Authors: Wei Zhang, Juan Chen, Yanbo J. Wang, En Zhu, Xuan Yang, Yiduo Wang,
- Abstract要約: 注意に基づく障害特徴補完(ADMC)のための拡散モデルを提案する。
本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。
提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
- 参考スコア(独自算出の注目度): 25.1725138364452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion and intent recognition is essential for automated human-computer interaction, It aims to analyze users' speech, text, and visual information to predict their emotions or intent. One of the significant challenges is that missing modalities due to sensor malfunctions or incomplete data. Traditional methods that attempt to reconstruct missing information often suffer from over-coupling and imprecise generation processes, leading to suboptimal outcomes. To address these issues, we introduce an Attention-based Diffusion model for Missing Modalities feature Completion (ADMC). Our framework independently trains feature extraction networks for each modality, preserving their unique characteristics and avoiding over-coupling. The Attention-based Diffusion Network (ADN) generates missing modality features that closely align with authentic multimodal distribution, enhancing performance across all missing-modality scenarios. Moreover, ADN's cross-modal generation offers improved recognition even in full-modality contexts. Our approach achieves state-of-the-art results on the IEMOCAP and MIntRec benchmarks, demonstrating its effectiveness in both missing and complete modality scenarios.
- Abstract(参考訳): マルチモーダルな感情と意図認識は人間とコンピュータの対話の自動化に不可欠であり、ユーザーの音声、テキスト、視覚情報を分析して感情や意図を予測することを目的としている。
重要な課題の1つは、センサーの故障や不完全なデータによるモダリティの欠如である。
行方不明の情報を再構築しようとする伝統的な手法は、しばしば過剰な結合と不正確な生成プロセスに悩まされ、最適以下の結果をもたらす。
これらの問題に対処するために,注意に基づく拡散モデル(ADMC)を導入する。
本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。
Attention-based Diffusion Network (ADN) は、真のマルチモーダル分布と密に一致し、欠落したモダリティシナリオにまたがるパフォーマンスを向上させる、欠落したモダリティ機能を生成する。
さらに、ADNのクロスモーダル生成は、フルモーダルなコンテキストにおいても、より優れた認識を提供する。
提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
関連論文リスト
- AMM-Diff: Adaptive Multi-Modality Diffusion Network for Missing Modality Imputation [2.8498944632323755]
臨床実践において、フルイメージングは必ずしも実現可能ではなく、多くの場合、複雑な取得プロトコル、厳格なプライバシ規則、特定の臨床ニーズのためである。
有望な解決策は、利用可能なものから欠落したモダリティが生成されるデータ計算の欠如である。
適応多モード拡散ネットワーク (AMM-Diff) を提案する。
論文 参考訳(メタデータ) (2025-01-22T12:29:33Z) - Modality Unified Attack for Omni-Modality Person Re-Identification [16.624135145315673]
そこで本研究では,異なるモダリティモデルを攻撃するために,敵対的ジェネレータを訓練するための新しいモダリティ統一攻撃法を提案する。
実験により,本手法は全モードリイドモデルに対して,55.9%,24.4%,49.0%,62.7%のmAP低下率で効果的に攻撃可能であることが示された。
論文 参考訳(メタデータ) (2025-01-22T09:54:43Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Cross-modality Information Bottleneck Representation for
Heterogeneous Person Re-Identification [61.49219876388174]
Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要かつ困難な課題である。
既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らす。
本稿では,新しい相互情報・モダリティコンセンサスネットワーク,すなわちCMInfoNetを提案し,モダリティ不変な同一性の特徴を抽出する。
論文 参考訳(メタデータ) (2023-08-29T06:55:42Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。