論文の概要: Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
- arxiv url: http://arxiv.org/abs/2402.03658v1
- Date: Tue, 6 Feb 2024 03:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:58:20.267365
- Title: Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
- Title(参考訳): 対話における知覚強調グラフに基づくサルカズム記述
- Authors: Kun Ouyang and Liqiang Jing and Xuemeng Song and Meng Liu and Yupeng
Hu and Liqiang Nie
- Abstract要約: 本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
- 参考スコア(独自算出の注目度): 67.09698638709065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm Explanation in Dialogue (SED) is a new yet challenging task, which
aims to generate a natural language explanation for the given sarcastic
dialogue that involves multiple modalities (i.e., utterance, video, and audio).
Although existing studies have achieved great success based on the generative
pretrained language model BART, they overlook exploiting the sentiments
residing in the utterance, video and audio, which are vital clues for sarcasm
explanation. In fact, it is non-trivial to incorporate sentiments for boosting
SED performance, due to three main challenges: 1) diverse effects of utterance
tokens on sentiments; 2) gap between video-audio sentiment signals and the
embedding space of BART; and 3) various relations among utterances, utterance
sentiments, and video-audio sentiments. To tackle these challenges, we propose
a novel sEntiment-enhanceD Graph-based multimodal sarcasm Explanation
framework, named EDGE. In particular, we first propose a lexicon-guided
utterance sentiment inference module, where a heuristic utterance sentiment
refinement strategy is devised. We then develop a module named Joint Cross
Attention-based Sentiment Inference (JCA-SI) by extending the multimodal
sentiment analysis model JCA to derive the joint sentiment label for each
video-audio clip. Thereafter, we devise a context-sentiment graph to
comprehensively model the semantic relations among the utterances, utterance
sentiments, and video-audio sentiments, to facilitate sarcasm explanation
generation. Extensive experiments on the publicly released dataset WITS verify
the superiority of our model over cutting-edge methods.
- Abstract(参考訳): sed(sarcasm description in dialogue)は、複数のモーダリティ(発話、ビデオ、音声など)を含む、与えられたサルカスティックな対話に対して自然言語による説明を生成することを目的とした、新しい挑戦的なタスクである。
既存の研究は、生成事前訓練された言語モデルであるBARTに基づいて大きな成功を収めてきたが、彼らは、発声、ビデオ、音声にまつわる感情を利用して、皮肉な説明の重要な手がかりを見落としている。
実際、3つの大きな課題があるため、sedのパフォーマンスを高めるために感情を組み込むことは自明ではありません。
1) 発話トークンの感情に対する多様な影響
2)ビデオ音声の感情信号とBARTの埋め込み空間とのギャップ
3)発話,発話感情,映像音声感情のさまざまな関係
これらの課題に対処するために, EDGE という新しい sEntiment-enhanceD Graph-based multimodal sarcasm Explanation フレームワークを提案する。
特に,我々はまず,ヒューリスティックな発話感情改善戦略を考案した語彙誘導型発話感情推論モジュールを提案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
その後, 発話, 発話感情, 音声感情間の意味関係を包括的にモデル化する文脈感グラフを考案し, 皮肉な説明生成を容易にする。
一般公開されたデータセットWITSの大規模な実験は、最先端の手法よりもモデルの優位性を検証する。
関連論文リスト
- Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - SAIDS: A Novel Approach for Sentiment Analysis Informed of Dialect and
Sarcasm [0.0]
本稿では,アラビア語ツイートの感情,皮肉,方言を予測する新しいシステム(SAIDS)を紹介する。
すべてのタスクを一緒にトレーニングすることで、SAIDSの結果は75.98 FPN、59.09 F1スコア、71.13 F1スコアで、それぞれ感情分析、肉腫検出、方言識別を行う。
論文 参考訳(メタデータ) (2023-01-06T14:19:46Z) - Explaining (Sarcastic) Utterances to Enhance Affect Understanding in
Multimodal Dialogues [40.80696210030204]
本稿では,マルチモーダル(皮肉)対話インスタンスを入力とし,その説明として自然言語文を生成する深層ニューラルネットワーク MOSES を提案する。
本研究では, サルカズム検出, ユーモア識別, 感情認識など, 対話型対話システムにおいて, 様々な自然言語理解タスクに対して生成した説明を活用する。
評価結果から,MOSESはSEDの最先端システムよりも平均2%高い性能を示した。
論文 参考訳(メタデータ) (2022-11-20T18:05:43Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。