Fugu-MT 論文翻訳(概要): Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue

論文の概要: Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue

arxiv url: http://arxiv.org/abs/2402.03658v1
Date: Tue, 6 Feb 2024 03:14:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 16:58:20.267365
Title: Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
Title（参考訳）: 対話における知覚強調グラフに基づくサルカズム記述
Authors: Kun Ouyang and Liqiang Jing and Xuemeng Song and Meng Liu and Yupeng Hu and Liqiang Nie
Abstract要約: 本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
参考スコア（独自算出の注目度）: 67.09698638709065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sarcasm Explanation in Dialogue (SED) is a new yet challenging task, which aims to generate a natural language explanation for the given sarcastic dialogue that involves multiple modalities (i.e., utterance, video, and audio). Although existing studies have achieved great success based on the generative pretrained language model BART, they overlook exploiting the sentiments residing in the utterance, video and audio, which are vital clues for sarcasm explanation. In fact, it is non-trivial to incorporate sentiments for boosting SED performance, due to three main challenges: 1) diverse effects of utterance tokens on sentiments; 2) gap between video-audio sentiment signals and the embedding space of BART; and 3) various relations among utterances, utterance sentiments, and video-audio sentiments. To tackle these challenges, we propose a novel sEntiment-enhanceD Graph-based multimodal sarcasm Explanation framework, named EDGE. In particular, we first propose a lexicon-guided utterance sentiment inference module, where a heuristic utterance sentiment refinement strategy is devised. We then develop a module named Joint Cross Attention-based Sentiment Inference (JCA-SI) by extending the multimodal sentiment analysis model JCA to derive the joint sentiment label for each video-audio clip. Thereafter, we devise a context-sentiment graph to comprehensively model the semantic relations among the utterances, utterance sentiments, and video-audio sentiments, to facilitate sarcasm explanation generation. Extensive experiments on the publicly released dataset WITS verify the superiority of our model over cutting-edge methods.
Abstract（参考訳）: sed(sarcasm description in dialogue)は、複数のモーダリティ(発話、ビデオ、音声など)を含む、与えられたサルカスティックな対話に対して自然言語による説明を生成することを目的とした、新しい挑戦的なタスクである。既存の研究は、生成事前訓練された言語モデルであるBARTに基づいて大きな成功を収めてきたが、彼らは、発声、ビデオ、音声にまつわる感情を利用して、皮肉な説明の重要な手がかりを見落としている。実際、3つの大きな課題があるため、sedのパフォーマンスを高めるために感情を組み込むことは自明ではありません。 1) 発話トークンの感情に対する多様な影響 2)ビデオ音声の感情信号とBARTの埋め込み空間とのギャップ 3)発話,発話感情,映像音声感情のさまざまな関係これらの課題に対処するために, EDGE という新しい sEntiment-enhanceD Graph-based multimodal sarcasm Explanation フレームワークを提案する。特に,我々はまず,ヒューリスティックな発話感情改善戦略を考案した語彙誘導型発話感情推論モジュールを提案する。次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。その後, 発話, 発話感情, 音声感情間の意味関係を包括的にモデル化する文脈感グラフを考案し, 皮肉な説明生成を容易にする。一般公開されたデータセットWITSの大規模な実験は、最先端の手法よりもモデルの優位性を検証する。

関連論文リスト

Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [37.62433475609052]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。 IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文参考訳（メタデータ） (2025-06-07T14:52:58Z)
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-19T04:10:53Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文参考訳（メタデータ） (2024-08-18T13:51:01Z)
VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文参考訳（メタデータ） (2024-08-05T15:36:52Z)
VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。 VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-01T07:44:24Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文参考訳（メタデータ） (2023-08-28T07:11:27Z)
SAIDS: A Novel Approach for Sentiment Analysis Informed of Dialect and Sarcasm [0.0]
本稿では,アラビア語ツイートの感情,皮肉,方言を予測する新しいシステム(SAIDS)を紹介する。すべてのタスクを一緒にトレーニングすることで、SAIDSの結果は75.98 FPN、59.09 F1スコア、71.13 F1スコアで、それぞれ感情分析、肉腫検出、方言識別を行う。
論文参考訳（メタデータ） (2023-01-06T14:19:46Z)
Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-12-08T03:29:04Z)
Explaining (Sarcastic) Utterances to Enhance Affect Understanding in Multimodal Dialogues [40.80696210030204]
本稿では,マルチモーダル(皮肉)対話インスタンスを入力とし,その説明として自然言語文を生成する深層ニューラルネットワーク MOSES を提案する。本研究では, サルカズム検出, ユーモア識別, 感情認識など, 対話型対話システムにおいて, 様々な自然言語理解タスクに対して生成した説明を活用する。評価結果から,MOSESはSEDの最先端システムよりも平均2%高い性能を示した。
論文参考訳（メタデータ） (2022-11-20T18:05:43Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)
A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文参考訳（メタデータ） (2020-01-28T05:03:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。