論文の概要: Emotion and Intention Guided Multi-Modal Learning for Sticker Response Selection
- arxiv url: http://arxiv.org/abs/2511.17587v1
- Date: Sun, 16 Nov 2025 16:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.263266
- Title: Emotion and Intention Guided Multi-Modal Learning for Sticker Response Selection
- Title(参考訳): ステッカー応答選択のための感情・意図指導型マルチモーダル学習
- Authors: Yuxuan Hu, Jian Chen, Yuhao Wang, Zixuan Li, Jing Xiong, Pengyue Jia, Wei Wang, Chengming Li, Xiangyu Zhao,
- Abstract要約: ステッカー応答選択(SRS)タスクは、対話に基づいて最も文脈的に適切なステッカーを選択することを目的としている。
既存の方法は通常、セマンティックマッチングと感情的および意図的な手がかりを別々にモデル化する。
EIGMLは感情と意図を共同でモデル化し、孤立したモデリングによって生じるバイアスを効果的に低減する。
- 参考スコア(独自算出の注目度): 35.78392011537934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stickers are widely used in online communication to convey emotions and implicit intentions. The Sticker Response Selection (SRS) task aims to select the most contextually appropriate sticker based on the dialogue. However, existing methods typically rely on semantic matching and model emotional and intentional cues separately, which can lead to mismatches when emotions and intentions are misaligned. To address this issue, we propose Emotion and Intention Guided Multi-Modal Learning (EIGML). This framework is the first to jointly model emotion and intention, effectively reducing the bias caused by isolated modeling and significantly improving selection accuracy. Specifically, we introduce Dual-Level Contrastive Framework to perform both intra-modality and inter-modality alignment, ensuring consistent representation of emotional and intentional features within and across modalities. In addition, we design an Intention-Emotion Guided Multi-Modal Fusion module that integrates emotional and intentional information progressively through three components: Emotion-Guided Intention Knowledge Selection, Intention-Emotion Guided Attention Fusion, and Similarity-Adjusted Matching Mechanism. This design injects rich, effective information into the model and enables a deeper understanding of the dialogue, ultimately enhancing sticker selection performance. Experimental results on two public SRS datasets show that EIGML consistently outperforms state-of-the-art baselines, achieving higher accuracy and a better understanding of emotional and intentional features. Code is provided in the supplementary materials.
- Abstract(参考訳): ステッカーは、感情や暗黙の意図を伝えるために、オンラインコミュニケーションで広く使われている。
ステッカー応答選択(SRS)タスクは、対話に基づいて最も文脈的に適切なステッカーを選択することを目的としている。
しかし、既存の手法は通常、意味的マッチングと感情的および意図的な手がかりを別々にモデル化することに依存しており、感情と意図が一致していない場合のミスマッチにつながる可能性がある。
この問題に対処するため,EIGML(Emotion and Intention Guided Multi-Modal Learning)を提案する。
このフレームワークは、感情と意図を共同でモデル化し、孤立モデリングによるバイアスを効果的に低減し、選択精度を著しく向上する。
具体的には、モダリティ内およびモダリティ間アライメントを両立させ、モダリティ内およびモダリティ間の感情的特徴と意図的特徴の一貫した表現を確保するために、Dual-Level Contrastive Frameworkを導入する。
さらに,感情誘導型意図的知識選択,感情誘導型意識統合,類似性調整型マッチング機構という3つのコンポーネントを通じて,感情情報と意図情報を段階的に統合する多モード統合モジュールを設計した。
この設計は、リッチで効果的な情報をモデルに注入し、対話をより深く理解し、最終的にステッカー選択性能を向上させる。
2つの公開SRSデータセットによる実験結果から、EIGMLは最先端のベースラインを一貫して上回り、より正確で、感情的・意図的な特徴をよりよく理解していることがわかった。
コードは補充材料で提供される。
関連論文リスト
- TiCAL:Typicality-Based Consistency-Aware Learning for Multimodal Emotion Recognition [31.4260327895046]
マルチモーダル感情認識は、視覚、聴覚、テキストなどの不均一なモダリティを統合することで、人間の感情状態を正確に識別することを目的としている。
既存のアプローチは主に、モデルトレーニングを監督するために統一された感情ラベルに依存しており、しばしば重要な課題であるモーダル間感情衝突を見落としている。
我々は,人間の感情知覚の段階的特性に着想を得た,定型性に基づく連続型マルチモーダル感情認識(TiCAL)を提案する。
論文 参考訳(メタデータ) (2025-11-19T03:49:22Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Leveraging Label Potential for Enhanced Multimodal Emotion Recognition [6.725011823614421]
マルチモーダル感情認識(MER)は、感情状態を正確に予測するために様々なモダリティを統合する。
本稿では,この制限を克服するために,ラベル信号誘導マルチモーダル感情認識(LSGMER)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-04-07T15:00:34Z) - Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition [16.97833694961584]
Foal-Netは、モダリティ融合の有効性を高めるように設計されている。
これには、オーディオビデオの感情アライメントと、モーダルな感情ラベルマッチングという2つの補助的なタスクが含まれる。
実験の結果,Foal-Netは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-18T11:05:21Z) - Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning [40.101313334772016]
会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。
従来のERC法は、クロスモーダル核融合のための単純な接続に依存していた。
本稿では,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:22:30Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。