論文の概要: InterMulti:Multi-view Multimodal Interactions with Text-dominated
Hierarchical High-order Fusion for Emotion Analysis
- arxiv url: http://arxiv.org/abs/2212.10030v1
- Date: Tue, 20 Dec 2022 07:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:16:23.463215
- Title: InterMulti:Multi-view Multimodal Interactions with Text-dominated
Hierarchical High-order Fusion for Emotion Analysis
- Title(参考訳): 感情分析のためのテキスト優位階層高次融合によるマルチマルチビューマルチモーダルインタラクション
- Authors: Feng Qiu, Wanzeng Kong, Yu Ding
- Abstract要約: 異なる視点から複雑なマルチモーダルインタラクションを捉えるためのマルチモーダル感情分析フレームワークであるInterMultiを提案する。
提案フレームワークは,異なるモードの信号を3種類のマルチモーダル相互作用表現に分解する。
THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
- 参考スコア(独自算出の注目度): 10.048903012988882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are sophisticated at reading interlocutors' emotions from multimodal
signals, such as speech contents, voice tones and facial expressions. However,
machines might struggle to understand various emotions due to the difficulty of
effectively decoding emotions from the complex interactions between multimodal
signals. In this paper, we propose a multimodal emotion analysis framework,
InterMulti, to capture complex multimodal interactions from different views and
identify emotions from multimodal signals. Our proposed framework decomposes
signals of different modalities into three kinds of multimodal interaction
representations, including a modality-full interaction representation, a
modality-shared interaction representation, and three modality-specific
interaction representations. Additionally, to balance the contribution of
different modalities and learn a more informative latent interaction
representation, we developed a novel Text-dominated Hierarchical High-order
Fusion(THHF) module. THHF module reasonably integrates the above three kinds of
representations into a comprehensive multimodal interaction representation.
Extensive experimental results on widely used datasets, (i.e.) MOSEI, MOSI and
IEMOCAP, demonstrate that our method outperforms the state-of-the-art.
- Abstract(参考訳): 人間は、音声の内容、声調、表情といったマルチモーダル信号から対話者の感情を読み取るのが得意である。
しかし、機械はマルチモーダル信号間の複雑な相互作用から感情を効果的に復号することの難しさから、様々な感情を理解するのに苦労する可能性がある。
本稿では,異なる視点から複雑なマルチモーダルインタラクションを捉え,マルチモーダル信号から感情を識別するマルチモーダル感情分析フレームワークintermultiを提案する。
提案フレームワークは,様々なモーダルの信号を,モーダル-フル相互作用表現,モーダル-共有相互作用表現,モーダル-固有相互作用表現の3種類に分解する。
さらに,異なるモダリティの寄与のバランスを保ち,より情報に富む潜在相互作用表現を学習するために,テキストに支配される階層的高次融合(THHF)モジュールを開発した。
THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
広く使われているMOSEI,MOSI,IEMOCAPなどのデータセットに対する大規模な実験結果から,本手法が最先端の手法よりも優れていることが示された。
関連論文リスト
- AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph
Contrastive Learning for Multimodal Emotion Recognition [15.4676247289299]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Joyful: Joint Modality Fusion and Graph Contrastive Learning for
Multimodal Emotion Recognition [18.571931295274975]
マルチモーダル感情認識は、複数のモーダルの発話毎に感情を認識することを目的としている。
現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現することができない。
マルチモーダル感情認識のための共同モーダル融合法とグラフコントラスト学習法(Joyful)を提案する。
論文 参考訳(メタデータ) (2023-11-18T08:21:42Z) - MMOE: Mixture of Multimodal Interaction Experts [115.20477067767399]
MMOEはマルチモーダルインタラクションの専門家の混在を指す。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - EffMulti: Efficiently Modeling Complex Multimodal Interactions for
Emotion Analysis [8.941102352671198]
我々は感情分析過程を洗練させるために3種類の潜在表現を設計する。
これらの表現を包括的相互作用表現に合理的に組み込むために、モダリティ-セマンティック階層的融合が提案されている。
実験の結果,EffMultiは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-16T03:05:55Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。