論文の概要: Integrating Feedback Loss from Bi-modal Sarcasm Detector for Sarcastic Speech Synthesis
- arxiv url: http://arxiv.org/abs/2508.13028v1
- Date: Mon, 18 Aug 2025 15:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.4636
- Title: Integrating Feedback Loss from Bi-modal Sarcasm Detector for Sarcastic Speech Synthesis
- Title(参考訳): 雑音音声合成のためのバイモーダルサーカスム検出器からのフィードバック損失の統合
- Authors: Zhu Li, Yuqing Zhang, Xiyuan Gao, Devraj Raghuvanshi, Nagendra Kumar, Shekhar Nayak, Matt Coler,
- Abstract要約: サーカシック音声合成は、エンターテイメントや人間とコンピュータの相互作用のような応用における自然な相互作用を強化するために不可欠である。
本研究では,2モーダルサルカズム検出モデルからのフィードバック損失をTSトレーニングプロセスに統合する手法を提案する。
- 参考スコア(独自算出の注目度): 14.798970809585066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sarcastic speech synthesis, which involves generating speech that effectively conveys sarcasm, is essential for enhancing natural interactions in applications such as entertainment and human-computer interaction. However, synthesizing sarcastic speech remains a challenge due to the nuanced prosody that characterizes sarcasm, as well as the limited availability of annotated sarcastic speech data. To address these challenges, this study introduces a novel approach that integrates feedback loss from a bi-modal sarcasm detection model into the TTS training process, enhancing the model's ability to capture and convey sarcasm. In addition, by leveraging transfer learning, a speech synthesis model pre-trained on read speech undergoes a two-stage fine-tuning process. First, it is fine-tuned on a diverse dataset encompassing various speech styles, including sarcastic speech. In the second stage, the model is further refined using a dataset focused specifically on sarcastic speech, enhancing its ability to generate sarcasm-aware speech. Objective and subjective evaluations demonstrate that our proposed methods improve the quality, naturalness, and sarcasm-awareness of synthesized speech.
- Abstract(参考訳): サルカスタムを効果的に伝達する音声を生成することを含むサーカスタック音声合成は、エンターテイメントや人間とコンピュータの相互作用といった応用における自然な相互作用を高めるために不可欠である。
しかし, 皮肉を特徴付けるニュアンスな韻律や, 注釈付き皮肉音声データの利用が限られているため, 皮肉音声の合成は依然として課題である。
これらの課題に対処するため,本研究では,バイモーダルサルカズム検出モデルからのフィードバック損失をTSトレーニングプロセスに統合し,サルカズムを捕捉・伝達するモデルの能力を向上する手法を提案する。
さらに、転送学習を活用することにより、読み上げ音声に事前訓練された音声合成モデルが、2段階の微調整処理を行う。
まず、皮肉な音声を含む様々な音声スタイルを含む多様なデータセットを微調整する。
第2段階では、このモデルは皮肉な音声に特化したデータセットを用いてさらに洗練され、皮肉を意識した音声を生成する能力が向上する。
目的的および主観的評価は,提案手法が合成音声の品質,自然性,および皮肉認識を改善することを示す。
関連論文リスト
- AMuSeD: An Attentive Deep Neural Network for Multimodal Sarcasm Detection Incorporating Bi-modal Data Augmentation [11.568176591294746]
AMuSeD (bi-modal data augmentation を用いたMUltimodal Sarcasm dEtection の深部ニューラルネットワーク) を提案する。
このアプローチでは,Multimodal Sarcasm Detection dataset (MUStARD) を用いて,2段階のバイモーダルデータ拡張戦略を導入する。
第2フェーズでは、サルカシックなイントネーションを維持するために特別に調整された、FastSpeech 2ベースの音声合成システムを洗練する。
論文 参考訳(メタデータ) (2024-12-13T12:42:51Z) - Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [63.32199372362483]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation [62.89586083449108]
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
論文 参考訳(メタデータ) (2022-11-20T14:38:24Z) - Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism [7.194040730138362]
本研究では、モーダリティ間コントラストアテンションに基づくSarcasm Detection(ConAttSD)モデルを構築し、モーダリティ間コントラストアテンション機構を用いて発話のコントラスト特徴を抽出する。
ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-09-30T14:17:51Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。