論文の概要: DashFusion: Dual-stream Alignment with Hierarchical Bottleneck Fusion for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2512.05515v1
- Date: Fri, 05 Dec 2025 08:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.952146
- Title: DashFusion: Dual-stream Alignment with Hierarchical Bottleneck Fusion for Multimodal Sentiment Analysis
- Title(参考訳): DashFusion:マルチモーダル感度解析のための階層型Bottleneck Fusionを用いたデュアルストリームアライメント
- Authors: Yuhua Wen, Qifei Li, Yingying Zhou, Yingming Gao, Zhengqi Wen, Jianhua Tao, Ya Li,
- Abstract要約: マルチモーダル感情分析(MSA)は、テキスト、画像、音声などの様々なモダリティを統合し、より包括的な感情理解を提供する。
本稿では,階層型ボトルネック核融合(DashFusion)を用いたデュアルストリームアライメント(Dual-stream Alignment)という新しいフレームワークを提案する。
DashFusionは様々な測定値で最先端のパフォーマンスを実現し、アブレーション研究によりアライメントと融合技術の有効性が確認された。
- 参考スコア(独自算出の注目度): 33.787241290130574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis (MSA) integrates various modalities, such as text, image, and audio, to provide a more comprehensive understanding of sentiment. However, effective MSA is challenged by alignment and fusion issues. Alignment requires synchronizing both temporal and semantic information across modalities, while fusion involves integrating these aligned features into a unified representation. Existing methods often address alignment or fusion in isolation, leading to limitations in performance and efficiency. To tackle these issues, we propose a novel framework called Dual-stream Alignment with Hierarchical Bottleneck Fusion (DashFusion). Firstly, dual-stream alignment module synchronizes multimodal features through temporal and semantic alignment. Temporal alignment employs cross-modal attention to establish frame-level correspondences among multimodal sequences. Semantic alignment ensures consistency across the feature space through contrastive learning. Secondly, supervised contrastive learning leverages label information to refine the modality features. Finally, hierarchical bottleneck fusion progressively integrates multimodal information through compressed bottleneck tokens, which achieves a balance between performance and computational efficiency. We evaluate DashFusion on three datasets: CMU-MOSI, CMU-MOSEI, and CH-SIMS. Experimental results demonstrate that DashFusion achieves state-of-the-art performance across various metrics, and ablation studies confirm the effectiveness of our alignment and fusion techniques. The codes for our experiments are available at https://github.com/ultramarineX/DashFusion.
- Abstract(参考訳): マルチモーダル感情分析(MSA)は、テキスト、画像、音声などの様々なモダリティを統合し、より包括的な感情理解を提供する。
しかし、効果的なMSAはアライメントと融合の問題によって挑戦される。
アライメントは時間情報と意味情報の両方をモダリティ間で同期させる必要があり、融合にはこれらの整列した特徴を統一された表現に統合する必要がある。
既存のメソッドは、独立してアライメントや融合に対処することが多く、パフォーマンスと効率の制限につながる。
これらの課題に対処するために,階層型ボトルネック核融合(DashFusion)を用いたデュアルストリームアライメント(Dual-stream Alignment)という新しいフレームワークを提案する。
まず、デュアルストリームアライメントモジュールは、時間的および意味的なアライメントを通じてマルチモーダル特徴を同期する。
時間的アライメントは、マルチモーダルシーケンス間のフレームレベル対応を確立するために、クロスモーダルアライメントを使用する。
セマンティックアライメントは、対照的な学習を通じて特徴空間全体の一貫性を保証する。
第二に、教師付きコントラスト学習はラベル情報を活用し、モダリティの特徴を洗練させる。
最後に、階層的ボトルネック融合は、圧縮されたボトルネックトークンを通じて、段階的にマルチモーダル情報を統合し、パフォーマンスと計算効率のバランスをとる。
CMU-MOSI, CMU-MOSEI, CH-SIMSの3つのデータセット上でDashFusionを評価する。
実験の結果,DashFusionは様々な測定値の最先端性能を実現し,アブレーション実験によりアライメントと融合技術の有効性が確認された。
実験のコードはhttps://github.com/ultramarineX/DashFusion.comで公開されている。
関連論文リスト
- Multispectral State-Space Feature Fusion: Bridging Shared and Cross-Parametric Interactions for Object Detection [48.04749955821739]
MS2Fusionと呼ばれる新しいマルチスペクトル状態空間特徴融合フレームワークが提案されている。
MS2フュージョンはデュアルパスパラメトリック相互作用機構を通じて効率的かつ効果的な融合を実現する。
我々のMS2Fusionは、主要なベンチマーク実験において、他の最先端のマルチスペクトルオブジェクト検出方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-19T14:38:03Z) - How Intermodal Interaction Affects the Performance of Deep Multimodal Fusion for Mixed-Type Time Series [3.6958071416494414]
MTTS(Mixed-type Time Series)は、医療、金融、環境モニタリング、ソーシャルメディアなど、多くの分野で一般的なバイモーダルデータである。
マルチモーダル融合による両モードの統合はMTTSの処理において有望なアプローチである。
MTTS予測のための深層多モード融合手法の総合評価を行った。
論文 参考訳(メタデータ) (2024-06-21T12:26:48Z) - GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer [44.44603063754173]
クロスモーダル変換器は、様々なモダリティを効果的に統合することにより、様々な視覚タスクにおいて優位性を証明している。
本稿では,画素単位の融合手法であるGeminiFusionを提案する。
我々は,層間相互作用を適応的に制御するために層適応雑音を用い,調和した融合プロセスを実現する。
論文 参考訳(メタデータ) (2024-06-03T11:24:15Z) - Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model [18.19558762805031]
本稿では,複数モードの状態チェーンを結合し,モード内状態プロセスの独立性を維持した結合型SSMモデルを提案する。
CMU-EI,CH-SIMS,CH-SIMSV2のマルチドメイン入力による実験により,本モデルの有効性が検証された。
その結果, 結合マンバモデルではマルチモーダル核融合が可能であることがわかった。
論文 参考訳(メタデータ) (2024-05-28T09:57:03Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文 参考訳(メタデータ) (2023-12-22T03:25:15Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。