論文の概要: TopicDiff: A Topic-enriched Diffusion Approach for Multimodal
Conversational Emotion Detection
- arxiv url: http://arxiv.org/abs/2403.04789v2
- Date: Mon, 11 Mar 2024 01:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:18:32.651594
- Title: TopicDiff: A Topic-enriched Diffusion Approach for Multimodal
Conversational Emotion Detection
- Title(参考訳): TopicDiff:マルチモーダル会話感情検出のためのトピック強化拡散手法
- Authors: Jiamin Luo, Jingjing Wang, Guodong Zhou
- Abstract要約: MCEタスクにおけるマルチモーダルトピック情報を取得するために,モデルに依存しないトピック強化拡散(TopicDiff)手法を提案する。
詳細な評価は、最先端のMCEベースラインに対するTopicDiffの大幅な改善を示している。
音声と視覚の話題情報は,言語に比べて識別性が高く,頑健である,という興味深い発見を観察する。
- 参考スコア(独自算出の注目度): 20.443463171739637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Conversational Emotion (MCE) detection, generally spanning across
the acoustic, vision and language modalities, has attracted increasing interest
in the multimedia community. Previous studies predominantly focus on learning
contextual information in conversations with only a few considering the topic
information in single language modality, while always neglecting the acoustic
and vision topic information. On this basis, we propose a model-agnostic
Topic-enriched Diffusion (TopicDiff) approach for capturing multimodal topic
information in MCE tasks. Particularly, we integrate the diffusion model into
neural topic model to alleviate the diversity deficiency problem of neural
topic model in capturing topic information. Detailed evaluations demonstrate
the significant improvements of TopicDiff over the state-of-the-art MCE
baselines, justifying the importance of multimodal topic information to MCE and
the effectiveness of TopicDiff in capturing such information. Furthermore, we
observe an interesting finding that the topic information in acoustic and
vision is more discriminative and robust compared to the language.
- Abstract(参考訳): MCE(Multimodal Conversational Emotion)の検出は、一般的に音響、視覚、言語モダリティにまたがるものであり、マルチメディアコミュニティへの関心が高まっている。
従来の研究は主に、単一の言語モダリティにおける話題情報を考慮しつつ、音響的・視覚的な話題情報を常に無視しながら、会話の中で文脈的情報を学ぶことに集中していた。
そこで本研究では,MCEタスクのマルチモーダルトピック情報を取得するために,モデルに依存しないトピック拡張(TopicDiff)手法を提案する。
特に,拡散モデルとニューラルトピックモデルを統合することで,トピック情報の収集におけるニューラルトピックモデルの多様性不足問題を軽減する。
詳細な評価は、最先端のmceベースラインに対するトピックディフの大幅な改善を示し、mceに対するマルチモーダルなトピック情報の重要性と、そのような情報取得におけるトピックディフの有効性を正当化している。
さらに,音声と視覚における話題情報が,言語よりも識別的かつ頑健であることの興味深い発見を観察した。
関連論文リスト
- ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multi-Granularity Prompts for Topic Shift Detection in Dialogue [13.739991183173494]
対話トピックシフト検出の目標は、会話中の現在のトピックが変更されたか、変更する必要があるかを特定することである。
従来の研究は、事前訓練されたモデルを用いて発話を符号化するトピックシフトの検出に重点を置いていた。
我々は,複数粒度での対話,すなわちラベル,ターン,トピックから話題情報を抽出するために,プロンプトベースのアプローチを採用する。
論文 参考訳(メタデータ) (2023-05-23T12:35:49Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Neural Topic Modeling with Deep Mutual Information Estimation [23.474848535821994]
本稿では,深い相互情報推定を取り入れたニューラルトピックモデルを提案する。
NTM-DMIEはトピック学習のためのニューラルネットワーク手法である。
我々はNTM-DMIEをテキストクラスタリングの精度、トピック表現、トピック一意性、トピックコヒーレンスなどの指標で評価する。
論文 参考訳(メタデータ) (2022-03-12T01:08:10Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。