Fugu-MT 論文翻訳(概要): InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis

論文の概要: InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis

arxiv url: http://arxiv.org/abs/2212.10030v1
Date: Tue, 20 Dec 2022 07:02:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 16:16:23.463215
Title: InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis
Title（参考訳）: 感情分析のためのテキスト優位階層高次融合によるマルチマルチビューマルチモーダルインタラクション
Authors: Feng Qiu, Wanzeng Kong, Yu Ding
Abstract要約: 異なる視点から複雑なマルチモーダルインタラクションを捉えるためのマルチモーダル感情分析フレームワークであるInterMultiを提案する。提案フレームワークは,異なるモードの信号を3種類のマルチモーダル相互作用表現に分解する。 THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
参考スコア（独自算出の注目度）: 10.048903012988882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans are sophisticated at reading interlocutors' emotions from multimodal signals, such as speech contents, voice tones and facial expressions. However, machines might struggle to understand various emotions due to the difficulty of effectively decoding emotions from the complex interactions between multimodal signals. In this paper, we propose a multimodal emotion analysis framework, InterMulti, to capture complex multimodal interactions from different views and identify emotions from multimodal signals. Our proposed framework decomposes signals of different modalities into three kinds of multimodal interaction representations, including a modality-full interaction representation, a modality-shared interaction representation, and three modality-specific interaction representations. Additionally, to balance the contribution of different modalities and learn a more informative latent interaction representation, we developed a novel Text-dominated Hierarchical High-order Fusion(THHF) module. THHF module reasonably integrates the above three kinds of representations into a comprehensive multimodal interaction representation. Extensive experimental results on widely used datasets, (i.e.) MOSEI, MOSI and IEMOCAP, demonstrate that our method outperforms the state-of-the-art.
Abstract（参考訳）: 人間は、音声の内容、声調、表情といったマルチモーダル信号から対話者の感情を読み取るのが得意である。しかし、機械はマルチモーダル信号間の複雑な相互作用から感情を効果的に復号することの難しさから、様々な感情を理解するのに苦労する可能性がある。本稿では,異なる視点から複雑なマルチモーダルインタラクションを捉え,マルチモーダル信号から感情を識別するマルチモーダル感情分析フレームワークintermultiを提案する。提案フレームワークは,様々なモーダルの信号を,モーダル-フル相互作用表現,モーダル-共有相互作用表現,モーダル-固有相互作用表現の3種類に分解する。さらに,異なるモダリティの寄与のバランスを保ち,より情報に富む潜在相互作用表現を学習するために,テキストに支配される階層的高次融合(THHF)モジュールを開発した。 THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。広く使われているMOSEI,MOSI,IEMOCAPなどのデータセットに対する大規模な実験結果から,本手法が最先端の手法よりも優れていることが示された。

関連論文リスト

Heterogeneous bimodal attention fusion for speech emotion recognition [14.24203981584309]
本稿では,会話感情認識における多段階多モードインタラクションのためのHBAF(Heterogeneous Bimodal Attention Fusion)という新しいフレームワークを提案する。ユニモーダル表現モジュールは、コンテキストコンテンツを低レベルのオーディオ表現に組み込んで、異種マルチモーダルギャップをブリッジする。マルチモーダル融合モジュールは動的バイモーダルアテンションと動的ゲーティング機構を用いて不正確な相互モーダル関係をフィルタリングする。
論文参考訳（メタデータ） (2025-03-09T02:50:49Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文参考訳（メタデータ） (2023-12-28T01:57:26Z)
Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition [18.571931295274975]
マルチモーダル感情認識は、複数のモーダルの発話毎に感情を認識することを目的としている。現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現することができない。マルチモーダル感情認識のための共同モーダル融合法とグラフコントラスト学習法(Joyful)を提案する。
論文参考訳（メタデータ） (2023-11-18T08:21:42Z)
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。 MMoEは様々な種類のモデルに適用でき、改善できる。
論文参考訳（メタデータ） (2023-11-16T05:31:21Z)
Multimodal Prompt Transformer with Hybrid Contrastive Learning for Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。 MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文参考訳（メタデータ） (2023-10-04T13:54:46Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
EffMulti: Efficiently Modeling Complex Multimodal Interactions for Emotion Analysis [8.941102352671198]
我々は感情分析過程を洗練させるために3種類の潜在表現を設計する。これらの表現を包括的相互作用表現に合理的に組み込むために、モダリティ-セマンティック階層的融合が提案されている。実験の結果,EffMultiは最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2022-12-16T03:05:55Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)
M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。 M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文参考訳（メタデータ） (2022-05-09T06:52:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。