論文の概要: Making Machines Sound Sarcastic: LLM-Enhanced and Retrieval-Guided Sarcastic Speech Synthesis
- arxiv url: http://arxiv.org/abs/2510.07096v1
- Date: Wed, 08 Oct 2025 14:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.57394
- Title: Making Machines Sound Sarcastic: LLM-Enhanced and Retrieval-Guided Sarcastic Speech Synthesis
- Title(参考訳): 製音機:LLM強化・検索誘導サルカシック音声合成
- Authors: Zhu Li, Yuqing Zhang, Xiyuan Gao, Shekhar Nayak, Matt Coler,
- Abstract要約: サルカズム(Sarcasm)は、非リテラル言語の微妙な形式であり、音声合成において重要な課題を提起する。
本稿では,文字認識音声合成のためのLarge Language Model (LLM)拡張検索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.632399543819382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sarcasm is a subtle form of non-literal language that poses significant challenges for speech synthesis due to its reliance on nuanced semantic, contextual, and prosodic cues. While existing speech synthesis research has focused primarily on broad emotional categories, sarcasm remains largely unexplored. In this paper, we propose a Large Language Model (LLM)-enhanced Retrieval-Augmented framework for sarcasm-aware speech synthesis. Our approach combines (1) semantic embeddings from a LoRA-fine-tuned LLaMA 3, which capture pragmatic incongruity and discourse-level cues of sarcasm, and (2) prosodic exemplars retrieved via a Retrieval Augmented Generation (RAG) module, which provide expressive reference patterns of sarcastic delivery. Integrated within a VITS backbone, this dual conditioning enables more natural and contextually appropriate sarcastic speech. Experiments demonstrate that our method outperforms baselines in both objective measures and subjective evaluations, yielding improvements in speech naturalness, sarcastic expressivity, and downstream sarcasm detection.
- Abstract(参考訳): サルカスムは微妙な非文学的な言語であり、ニュアンスド・セマンティック、文脈的、韻律的な手がかりに依存しているため、音声合成に重大な課題を生じさせる。
既存の音声合成研究は主に幅広い感情カテゴリーに焦点が当てられているが、皮肉はほとんど解明されていない。
本稿では,Sarcasm-aware音声合成のためのLarge Language Model (LLM)拡張検索フレームワークを提案する。
提案手法は,(1) サルカズムの現実的不整合と談話レベルを捉えたLLaMA 3 のセマンティックな埋め込みと,(2) サーカシック配信の表現的参照パターンを提供するRetrieval Augmented Generation (RAG) モジュールを介して検索した韻律的例を組み合わせる。
VITSのバックボーン内で統合されたこの二重条件付けは、より自然で文脈的に適切なシャーカスト音声を可能にする。
実験により,本手法は主観的評価と主観的評価の両方においてベースラインを上回り,音声の自然性,サーカスタティックな表現性,下流の皮肉検出の改善をもたらすことが示された。
関連論文リスト
- Integrating Feedback Loss from Bi-modal Sarcasm Detector for Sarcastic Speech Synthesis [14.798970809585066]
サーカシック音声合成は、エンターテイメントや人間とコンピュータの相互作用のような応用における自然な相互作用を強化するために不可欠である。
本研究では,2モーダルサルカズム検出モデルからのフィードバック損失をTSトレーニングプロセスに統合する手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T15:44:54Z) - Detecting Emotional Incongruity of Sarcasm by Commonsense Reasoning [32.5690489394632]
本論文は, 語義的意味に反する批判, モック, その他の否定的な感情を伝えるか否かを識別することを目的とした, 皮肉検出に焦点を当てた。
既存のメソッドは、複雑な現実世界のシナリオに直面した時に、常識的な推論能力に欠けており、不満足なパフォーマンスをもたらします。
本研究では,EICR と呼ばれるコモンセンス拡張に基づく不整合推論を行うサルカズム検出のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T11:25:55Z) - Expressivity and Speech Synthesis [51.75420054449122]
われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。
また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
論文 参考訳(メタデータ) (2024-04-30T08:47:24Z) - Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [63.32199372362483]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity
Modeling with Knowledge Enhancement [31.97249246223621]
サルカスム(Sarcasm)は、文字通りの意味と暗示意図の相違を示す言語現象である。
既存の技術のほとんどは、テキスト入力と付随する画像の間の原子レベルの不整合をモデル化しただけだった。
本稿では,マルチヘッドのクロスアテンション機構に基づく原子レベルの合同性と,グラフニューラルネットワークに基づく合成レベルの合同性の両方を探索し,サルカズム検出のための新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-07T12:44:33Z) - Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism [7.194040730138362]
本研究では、モーダリティ間コントラストアテンションに基づくSarcasm Detection(ConAttSD)モデルを構築し、モーダリティ間コントラストアテンション機構を用いて発話のコントラスト特徴を抽出する。
ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-09-30T14:17:51Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。