論文の概要: Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.25458v1
- Date: Mon, 29 Sep 2025 20:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.305756
- Title: Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition
- Title(参考訳): ゼロショット音声認識における合成プロンプトのためのプラグアンドプレイ感情グラフ
- Authors: Jiacheng Shi, Hongfei Du, Y. Alicia Hong, Ye Gao,
- Abstract要約: 大規模音声言語モデル(LALM)は、音声タスク全体で強いゼロショット性能を示すが、音声感情認識(SER)に苦慮している。
そこで我々は,感情推論におけるLALMを微調整なしでガイドするための,感情推論のためのCCoT-Emo(Compositional Chain-of-Thought Prompting for Emotion Reasoning)を提案する。
- 参考スコア(独自算出の注目度): 3.1649536621597973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large audio-language models (LALMs) exhibit strong zero-shot performance across speech tasks but struggle with speech emotion recognition (SER) due to weak paralinguistic modeling and limited cross-modal reasoning. We propose Compositional Chain-of-Thought Prompting for Emotion Reasoning (CCoT-Emo), a framework that introduces structured Emotion Graphs (EGs) to guide LALMs in emotion inference without fine-tuning. Each EG encodes seven acoustic features (e.g., pitch, speech rate, jitter, shimmer), textual sentiment, keywords, and cross-modal associations. Embedded into prompts, EGs provide interpretable and compositional representations that enhance LALM reasoning. Experiments across SER benchmarks show that CCoT-Emo outperforms prior SOTA and improves accuracy over zero-shot baselines.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、音声タスク全体にわたって強力なゼロショット性能を示すが、パラ言語的モデリングの弱さとモーダル間推論の制限により、音声感情認識(SER)に苦しむ。
本稿では,感情推論におけるLALMを微調整なしでガイドするための構造化感情グラフ(EG)を導入するフレームワークであるCCoT-Emo(Compositional Chain-of-Thought Prompting for Emotion Reasoning)を提案する。
各EGは、7つの音響的特徴(例えば、ピッチ、音声率、ジッタ、シャッター)、テキスト感情、キーワード、および相互モーダル関連を符号化する。
プロンプトに埋め込まれたEGは、LALM推論を強化する解釈可能および構成的表現を提供する。
SERベンチマークによる実験では、CCoT-EmoはSOTAよりも優れ、ゼロショットベースラインよりも精度が向上している。
関連論文リスト
- ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。
ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。
ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文 参考訳(メタデータ) (2026-02-13T08:33:37Z) - ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation [30.006550552714938]
共感的音声対話は、言語内容だけでなく、豊富なパラ言語情報も理解する必要がある。
既存の音声から音声への大きな言語モデルは、ASRの転写に依存するか、エンコーダを使用して潜在表現を抽出する。
音声に基づく共感応答生成のためのフレームワークである textbfES4R を提案する。
論文 参考訳(メタデータ) (2026-01-16T10:26:50Z) - Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech [0.13048920509133805]
音声感情認識における4つの音声言語モデル(SLM)の評価を行った。
以上の結果から,SLMは音声の感情よりもテキストのセマンティクスに大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2025-10-29T00:45:36Z) - RLAIF-SPA: Optimizing LLM-based Emotional Speech Synthesis via RLAIF [23.474332076771308]
テキスト音声合成は中性音声においてほぼ人間に近い品質を達成しているが、感情的な表現性は依然として課題である。
本稿では,AIフィードバック機構からの強化学習を取り入れたRLAIF-SPAフレームワークを提案する。
Libri 音声データセットの実験によると、RLAIF-SPA は Chat-TTS より優れており、WER は26.1%、SIM-O は9.1%、人的評価は10%以上向上している。
論文 参考訳(メタデータ) (2025-10-16T12:40:37Z) - Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation [27.668177917370144]
E-TTS(Emotional text-to-speech)は、自然で信頼性の高い人間とコンピュータのインタラクションを生み出す中心である。
LLMベースのTSのための微粒な感情モデリングフレームワークであるEmo-FiLMを紹介する。
Emo-FiLMは、感情2vecから単語にフレームレベルの特徴を合わせ、単語レベルの感情アノテーションを得る。
テキストの埋め込みを直接変調することで、単語レベルの感情制御を可能にする。
論文 参考訳(メタデータ) (2025-09-20T14:26:15Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Prompt-Unseen-Emotion: Zero-shot Expressive Speech Synthesis with Prompt-LLM Contextual Knowledge for Mixed Emotions [38.122477830163255]
本稿では,感情誘導型プロンプト学習による未知の感情音声を生成するための,新しいプロンプト・アンザイム・感情(PUE)アプローチを提案する。
提案したPUEは、ゼロショット設定における未知の感情の表現的音声合成に成功している。
論文 参考訳(メタデータ) (2025-06-03T10:59:22Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。