論文の概要: Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.25458v1
- Date: Mon, 29 Sep 2025 20:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.305756
- Title: Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition
- Title(参考訳): ゼロショット音声認識における合成プロンプトのためのプラグアンドプレイ感情グラフ
- Authors: Jiacheng Shi, Hongfei Du, Y. Alicia Hong, Ye Gao,
- Abstract要約: 大規模音声言語モデル(LALM)は、音声タスク全体で強いゼロショット性能を示すが、音声感情認識(SER)に苦慮している。
そこで我々は,感情推論におけるLALMを微調整なしでガイドするための,感情推論のためのCCoT-Emo(Compositional Chain-of-Thought Prompting for Emotion Reasoning)を提案する。
- 参考スコア(独自算出の注目度): 3.1649536621597973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large audio-language models (LALMs) exhibit strong zero-shot performance across speech tasks but struggle with speech emotion recognition (SER) due to weak paralinguistic modeling and limited cross-modal reasoning. We propose Compositional Chain-of-Thought Prompting for Emotion Reasoning (CCoT-Emo), a framework that introduces structured Emotion Graphs (EGs) to guide LALMs in emotion inference without fine-tuning. Each EG encodes seven acoustic features (e.g., pitch, speech rate, jitter, shimmer), textual sentiment, keywords, and cross-modal associations. Embedded into prompts, EGs provide interpretable and compositional representations that enhance LALM reasoning. Experiments across SER benchmarks show that CCoT-Emo outperforms prior SOTA and improves accuracy over zero-shot baselines.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、音声タスク全体にわたって強力なゼロショット性能を示すが、パラ言語的モデリングの弱さとモーダル間推論の制限により、音声感情認識(SER)に苦しむ。
本稿では,感情推論におけるLALMを微調整なしでガイドするための構造化感情グラフ(EG)を導入するフレームワークであるCCoT-Emo(Compositional Chain-of-Thought Prompting for Emotion Reasoning)を提案する。
各EGは、7つの音響的特徴(例えば、ピッチ、音声率、ジッタ、シャッター)、テキスト感情、キーワード、および相互モーダル関連を符号化する。
プロンプトに埋め込まれたEGは、LALM推論を強化する解釈可能および構成的表現を提供する。
SERベンチマークによる実験では、CCoT-EmoはSOTAよりも優れ、ゼロショットベースラインよりも精度が向上している。
関連論文リスト
- Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation [27.668177917370144]
E-TTS(Emotional text-to-speech)は、自然で信頼性の高い人間とコンピュータのインタラクションを生み出す中心である。
LLMベースのTSのための微粒な感情モデリングフレームワークであるEmo-FiLMを紹介する。
Emo-FiLMは、感情2vecから単語にフレームレベルの特徴を合わせ、単語レベルの感情アノテーションを得る。
テキストの埋め込みを直接変調することで、単語レベルの感情制御を可能にする。
論文 参考訳(メタデータ) (2025-09-20T14:26:15Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Prompt-Unseen-Emotion: Zero-shot Expressive Speech Synthesis with Prompt-LLM Contextual Knowledge for Mixed Emotions [38.122477830163255]
本稿では,感情誘導型プロンプト学習による未知の感情音声を生成するための,新しいプロンプト・アンザイム・感情(PUE)アプローチを提案する。
提案したPUEは、ゼロショット設定における未知の感情の表現的音声合成に成功している。
論文 参考訳(メタデータ) (2025-06-03T10:59:22Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。