論文の概要: ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation
- arxiv url: http://arxiv.org/abs/2601.16225v1
- Date: Fri, 16 Jan 2026 10:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.347114
- Title: ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation
- Title(参考訳): ES4R:共感応答生成のための前向き感情モデルに基づく音声符号化
- Authors: Zhuoyue Gao, Xiaohui Wang, Xiaocui Yang, Wen Zhang, Daling Wang, Shi Feng, Yifei Zhang,
- Abstract要約: 共感的音声対話は、言語内容だけでなく、豊富なパラ言語情報も理解する必要がある。
既存の音声から音声への大きな言語モデルは、ASRの転写に依存するか、エンコーダを使用して潜在表現を抽出する。
音声に基づく共感応答生成のためのフレームワークである textbfES4R を提案する。
- 参考スコア(独自算出の注目度): 30.006550552714938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empathetic speech dialogue requires not only understanding linguistic content but also perceiving rich paralinguistic information such as prosody, tone, and emotional intensity for affective understandings. Existing speech-to-speech large language models either rely on ASR transcription or use encoders to extract latent representations, often weakening affective information and contextual coherence in multi-turn dialogues. To address this, we propose \textbf{ES4R}, a framework for speech-based empathetic response generation. Our core innovation lies in explicitly modeling structured affective context before speech encoding, rather than relying on implicit learning by the encoder or explicit emotion supervision. Specifically, we introduce a dual-level attention mechanism to capture turn-level affective states and dialogue-level affective dynamics. The resulting affective representations are then integrated with textual semantics through speech-guided cross-modal attention to generate empathetic responses. For speech output, we employ energy-based strategy selection and style fusion to achieve empathetic speech synthesis. ES4R consistently outperforms strong baselines in both automatic and human evaluations and remains robust across different LLM backbones.
- Abstract(参考訳): 共感的音声対話は、言語内容の理解だけでなく、韻律、トーン、感情的な理解のための感情的な強さなどの豊かなパラ言語情報も知覚する必要がある。
既存の音声から音声への大きな言語モデルは、ASRの転写に依存するか、エンコーダを使用して潜在表現を抽出し、しばしばマルチターン対話における感情情報や文脈的一貫性を弱める。
そこで本研究では,音声による共感応答生成のためのフレームワークである「textbf{ES4R}」を提案する。
私たちの中核的な革新は、エンコーダや明示的な感情監督による暗黙の学習に頼るのではなく、音声符号化の前に構造化された情緒的文脈を明示的にモデル化することにあります。
具体的には、ターンレベルの感情状態と対話レベルの感情ダイナミクスを捉えるための二重レベルの注意機構を導入する。
得られた感情表現は、音声誘導による相互モーダルアテンションを通じてテキストセマンティクスと統合され、共感的応答を生成する。
音声出力にはエネルギベースの戦略選択とスタイル融合を用い,共感的音声合成を実現する。
ES4Rは、自動評価と人的評価の両方において、強いベースラインを一貫して上回り、異なるLLMバックボーンにわたって頑健である。
関連論文リスト
- A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech [0.13048920509133805]
音声感情認識における4つの音声言語モデル(SLM)の評価を行った。
以上の結果から,SLMは音声の感情よりもテキストのセマンティクスに大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2025-10-29T00:45:36Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - BoSS: Beyond-Semantic Speech [43.96461266560891]
ボSS(Beyond-Semantic Speech)は、意味論を包含するが、意味論を超越する音声コミュニケーションにおける情報の集合である。
本稿では、認知関連理論と機械学習モデルを利用して、時間的・文脈的な音声力学を解析するBoSSの形式化フレームワークを提案する。
これらの知見は、よりリッチでコンテキストに合った人間と機械のコミュニケーションを可能にするため、BoSS研究を進める必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-23T14:53:50Z) - Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。