論文の概要: Explaining (Sarcastic) Utterances to Enhance Affect Understanding in
Multimodal Dialogues
- arxiv url: http://arxiv.org/abs/2211.11049v2
- Date: Tue, 22 Nov 2022 13:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:08:33.542582
- Title: Explaining (Sarcastic) Utterances to Enhance Affect Understanding in
Multimodal Dialogues
- Title(参考訳): マルチモーダル対話における理解を高めるための(皮肉な)発話
- Authors: Shivani Kumar, Ishani Mondal, Md Shad Akhtar, Tanmoy Chakraborty
- Abstract要約: 本稿では,マルチモーダル(皮肉)対話インスタンスを入力とし,その説明として自然言語文を生成する深層ニューラルネットワーク MOSES を提案する。
本研究では, サルカズム検出, ユーモア識別, 感情認識など, 対話型対話システムにおいて, 様々な自然言語理解タスクに対して生成した説明を活用する。
評価結果から,MOSESはSEDの最先端システムよりも平均2%高い性能を示した。
- 参考スコア(独自算出の注目度): 40.80696210030204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversations emerge as the primary media for exchanging ideas and
conceptions. From the listener's perspective, identifying various affective
qualities, such as sarcasm, humour, and emotions, is paramount for
comprehending the true connotation of the emitted utterance. However, one of
the major hurdles faced in learning these affect dimensions is the presence of
figurative language, viz. irony, metaphor, or sarcasm. We hypothesize that any
detection system constituting the exhaustive and explicit presentation of the
emitted utterance would improve the overall comprehension of the dialogue. To
this end, we explore the task of Sarcasm Explanation in Dialogues, which aims
to unfold the hidden irony behind sarcastic utterances. We propose MOSES, a
deep neural network, which takes a multimodal (sarcastic) dialogue instance as
an input and generates a natural language sentence as its explanation.
Subsequently, we leverage the generated explanation for various natural
language understanding tasks in a conversational dialogue setup, such as
sarcasm detection, humour identification, and emotion recognition. Our
evaluation shows that MOSES outperforms the state-of-the-art system for SED by
an average of ~2% on different evaluation metrics, such as ROUGE, BLEU, and
METEOR. Further, we observe that leveraging the generated explanation advances
three downstream tasks for affect classification - an average improvement of
~14% F1-score in the sarcasm detection task and ~2% in the humour
identification and emotion recognition task. We also perform extensive analyses
to assess the quality of the results.
- Abstract(参考訳): アイデアと概念を交換する主要なメディアとして会話が出現する。
聴取者の視点からは, 発声の真の意味を理解する上で, サルカズム, ユーモア, 感情など, 様々な感情的特徴を識別することが最重要である。
しかし、これらの次元に影響を与えることを学ぶ上で直面する大きなハードルの1つは、比喩的言語、虚構、比喩、皮肉の存在である。
発声された発話の徹底的かつ明示的な提示を構成する検出システムは、対話全体の理解を改善すると仮定した。
そこで我々は,皮肉な発話の背後にある隠れた皮肉を解き明かすことを目的として,Sarcasm Explanation in Dialoguesの課題を探求する。
本研究では,マルチモーダル(サーシスティック)対話インスタンスを入力として,自然言語文をその説明として生成するディープニューラルネットワークであるmosesを提案する。
その後,サルカム検出,ユーモア識別,感情認識などの会話対話設定において,様々な自然言語理解タスクに対して生成した説明を活用する。
MOSESは,ROUGE,BLEU,METEORなどの異なる評価指標において,SEDの最先端システムよりも平均約2%優れていた。
さらに, 生成した説明の活用は, 影響分類のための3つの下流課題 – サーカズム検出タスクでは平均14% f1-score, ユーモア識別および感情認識タスクでは約2%の改善 – を前進させる。
また,結果の質を評価するため,広範な分析を行った。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Leveraging Machine-Generated Rationales to Facilitate Social Meaning Detection in Conversations [13.586958232275501]
大規模言語モデル(LLM)を利用した一般化可能な分類手法を提案する。
我々は、視覚的な手がかりと基礎となる社会的意味を結びつけるテキスト説明を抽出するために、多面的プロンプトを設計する。
本研究は,2つの社会的意味検出タスクに対して,ドメイン内分類,ゼロショット,少数ショットドメイン転送に有効である。
論文 参考訳(メタデータ) (2024-06-27T21:47:42Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [67.09698638709065]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - When did you become so smart, oh wise one?! Sarcasm Explanation in
Multi-modal Multi-party Dialogues [27.884015521888458]
sarcastic conversationの談話構造について検討し、新しい課題であるSarcasm Explanation in Dialogue (SED)を提案する。
SEDは、風刺会話の自然言語説明を生成することを目的としている。
我々は、マルチモーダルなコンテキスト認識とグローバル情報融合モジュールであるMAFを提案し、それをWITSのベンチマークに利用する。
論文 参考訳(メタデータ) (2022-03-12T12:16:07Z) - Multi-modal Sarcasm Detection and Humor Classification in Code-mixed
Conversations [14.852199996061287]
我々は,会話対話におけるマルチモーダルサルカズム検出とユーモア分類のための,ヒンディー語と英語の混成データセットMaSaCを開発した。
発話分類のための新しい注目度の高いニューラルアーキテクチャであるMSH-COMICSを提案する。
論文 参考訳(メタデータ) (2021-05-20T18:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。