論文の概要: Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
- arxiv url: http://arxiv.org/abs/2402.03658v1
- Date: Tue, 6 Feb 2024 03:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:58:20.267365
- Title: Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
- Title(参考訳): 対話における知覚強調グラフに基づくサルカズム記述
- Authors: Kun Ouyang and Liqiang Jing and Xuemeng Song and Meng Liu and Yupeng
Hu and Liqiang Nie
- Abstract要約: 本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
- 参考スコア(独自算出の注目度): 67.09698638709065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm Explanation in Dialogue (SED) is a new yet challenging task, which
aims to generate a natural language explanation for the given sarcastic
dialogue that involves multiple modalities (i.e., utterance, video, and audio).
Although existing studies have achieved great success based on the generative
pretrained language model BART, they overlook exploiting the sentiments
residing in the utterance, video and audio, which are vital clues for sarcasm
explanation. In fact, it is non-trivial to incorporate sentiments for boosting
SED performance, due to three main challenges: 1) diverse effects of utterance
tokens on sentiments; 2) gap between video-audio sentiment signals and the
embedding space of BART; and 3) various relations among utterances, utterance
sentiments, and video-audio sentiments. To tackle these challenges, we propose
a novel sEntiment-enhanceD Graph-based multimodal sarcasm Explanation
framework, named EDGE. In particular, we first propose a lexicon-guided
utterance sentiment inference module, where a heuristic utterance sentiment
refinement strategy is devised. We then develop a module named Joint Cross
Attention-based Sentiment Inference (JCA-SI) by extending the multimodal
sentiment analysis model JCA to derive the joint sentiment label for each
video-audio clip. Thereafter, we devise a context-sentiment graph to
comprehensively model the semantic relations among the utterances, utterance
sentiments, and video-audio sentiments, to facilitate sarcasm explanation
generation. Extensive experiments on the publicly released dataset WITS verify
the superiority of our model over cutting-edge methods.
- Abstract(参考訳): sed(sarcasm description in dialogue)は、複数のモーダリティ(発話、ビデオ、音声など)を含む、与えられたサルカスティックな対話に対して自然言語による説明を生成することを目的とした、新しい挑戦的なタスクである。
既存の研究は、生成事前訓練された言語モデルであるBARTに基づいて大きな成功を収めてきたが、彼らは、発声、ビデオ、音声にまつわる感情を利用して、皮肉な説明の重要な手がかりを見落としている。
実際、3つの大きな課題があるため、sedのパフォーマンスを高めるために感情を組み込むことは自明ではありません。
1) 発話トークンの感情に対する多様な影響
2)ビデオ音声の感情信号とBARTの埋め込み空間とのギャップ
3)発話,発話感情,映像音声感情のさまざまな関係
これらの課題に対処するために, EDGE という新しい sEntiment-enhanceD Graph-based multimodal sarcasm Explanation フレームワークを提案する。
特に,我々はまず,ヒューリスティックな発話感情改善戦略を考案した語彙誘導型発話感情推論モジュールを提案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
その後, 発話, 発話感情, 音声感情間の意味関係を包括的にモデル化する文脈感グラフを考案し, 皮肉な説明生成を容易にする。
一般公開されたデータセットWITSの大規模な実験は、最先端の手法よりもモデルの優位性を検証する。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。
本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。
我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文 参考訳(メタデータ) (2024-08-05T15:36:52Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - SAIDS: A Novel Approach for Sentiment Analysis Informed of Dialect and
Sarcasm [0.0]
本稿では,アラビア語ツイートの感情,皮肉,方言を予測する新しいシステム(SAIDS)を紹介する。
すべてのタスクを一緒にトレーニングすることで、SAIDSの結果は75.98 FPN、59.09 F1スコア、71.13 F1スコアで、それぞれ感情分析、肉腫検出、方言識別を行う。
論文 参考訳(メタデータ) (2023-01-06T14:19:46Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Explaining (Sarcastic) Utterances to Enhance Affect Understanding in
Multimodal Dialogues [40.80696210030204]
本稿では,マルチモーダル(皮肉)対話インスタンスを入力とし,その説明として自然言語文を生成する深層ニューラルネットワーク MOSES を提案する。
本研究では, サルカズム検出, ユーモア識別, 感情認識など, 対話型対話システムにおいて, 様々な自然言語理解タスクに対して生成した説明を活用する。
評価結果から,MOSESはSEDの最先端システムよりも平均2%高い性能を示した。
論文 参考訳(メタデータ) (2022-11-20T18:05:43Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。