論文の概要: Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2107.13669v1
- Date: Wed, 28 Jul 2021 23:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 22:53:04.777381
- Title: Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis
- Title(参考訳): 相関制御マルチモーダル感情分析のためのバイバイモーダルモダリティ融合
- Authors: Wei Han, Hui Chen, Alexander Gelbukh, Amir Zadeh, Louis-philippe
Morency, and Soujanya Poria
- Abstract要約: Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
- 参考スコア(独自算出の注目度): 96.46952672172021
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal sentiment analysis aims to extract and integrate semantic
information collected from multiple modalities to recognize the expressed
emotions and sentiment in multimodal data. This research area's major concern
lies in developing an extraordinary fusion scheme that can extract and
integrate key information from various modalities. However, one issue that may
restrict previous work to achieve a higher level is the lack of proper modeling
for the dynamics of the competition between the independence and relevance
among modalities, which could deteriorate fusion outcomes by causing the
collapse of modality-specific feature space or introducing extra noise. To
mitigate this, we propose the Bi-Bimodal Fusion Network (BBFN), a novel
end-to-end network that performs fusion (relevance increment) and separation
(difference increment) on pairwise modality representations. The two parts are
trained simultaneously such that the combat between them is simulated. The
model takes two bimodal pairs as input due to the known information imbalance
among modalities. In addition, we leverage a gated control mechanism in the
Transformer architecture to further improve the final output. Experimental
results on three datasets (CMU-MOSI, CMU-MOSEI, and UR-FUNNY) verifies that our
model significantly outperforms the SOTA. The implementation of this work is
available at https://github.com/declare-lab/BBFN.
- Abstract(参考訳): マルチモーダル感情分析は、複数のモーダルから収集された意味情報を抽出し、統合することを目的としている。
この研究領域の主な関心は、様々なモダリティから重要な情報を抽出し統合できる並外れた融合スキームを開発することである。
しかしながら、以前の作業がより高いレベルに達するのを制限できる1つの問題は、独立性とモダリティ間の関連性の間の競合のダイナミクスの適切なモデリングが欠如していることであり、モダリティ特有の特徴空間の崩壊や余分なノイズを引き起こすことによって融合結果が低下する可能性がある。
そこで本研究では,両方向のモダリティ表現に対して,融合(関連インクリメント)と分離(差インクリメント)を行う新しいエンドツーエンドネットワークであるBi-Bimodal Fusion Network (BBFN)を提案する。
2つの部分を同時に訓練し、それらの間の戦闘をシミュレートする。
このモデルは、モダリティ間の既知の情報不均衡のため、2つのバイモーダルペアを入力として取り込む。
さらに、トランスアーキテクチャにおけるゲート制御機構を活用して、最終的な出力をさらに改善する。
CMU-MOSI, CMU-MOSEI, UR-FUNNYの3つのデータセットの実験結果から, モデルがSOTAを著しく上回ることを確認した。
この実装はhttps://github.com/declare-lab/bbfnで利用可能である。
関連論文リスト
- GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model [18.19558762805031]
本稿では,複数モードの状態チェーンを結合し,モード内状態プロセスの独立性を維持した結合型SSMモデルを提案する。
CMU-EI,CH-SIMS,CH-SIMSV2のマルチドメイン入力による実験により,本モデルの有効性が検証された。
その結果, 結合マンバモデルではマルチモーダル核融合が可能であることがわかった。
論文 参考訳(メタデータ) (2024-05-28T09:57:03Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。