論文の概要: FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs
- arxiv url: http://arxiv.org/abs/2604.18159v1
- Date: Mon, 20 Apr 2026 12:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.855672
- Title: FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs
- Title(参考訳): FreezeEmpath:凍結LDMを用いた共感型チャットボットの効率的なトレーニング
- Authors: Yun Hong, Yan Zhou, Yang Feng,
- Abstract要約: 提案するFreezeEmpathは、シンプルで効率的な方法で訓練されたエンド・ツー・エンドの共感型音声チャットボットである。
トレーニングプロセス全体は、LLMのパラメータを凍結させながら、既存の音声命令データと音声感情認識(SER)データにのみ依存する。
実験により、FreezeEmpathは感情的に表現力のある音声を生成でき、共感的対話、SER、スポケンQAタスクにおいて他の共感モデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 22.067440995715373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empathy is essential for fostering natural interactions in spoken dialogue systems, as it enables machines to recognize the emotional tone of human speech and deliver empathetic responses. Recent research has made significant progress in developing empathetic spoken chatbots based on large language models (LLMs). However, several challenges still exist when training such models, including reliance on costly empathetic speech instruction data and a lack of emotional expressiveness in the generated speech. Finetuning LLM with cross-modal empathetic instruction data may also lead to catastrophic forgetting and a degradation of its general capability. To address these challenges, we propose FreezeEmpath, an end-to-end empathetic spoken chatbot trained in a simple and efficient manner. The entire training process relies solely on existing speech instruction data and speech emotion recognition (SER) data, while keeping the LLM's parameters frozen. Experiments demonstrate that FreezeEmpath is able to generate emotionally expressive speech and outperforms other empathetic models in empathetic dialogue, SER, and SpokenQA tasks, demonstrating the effectiveness of our training strategy.
- Abstract(参考訳): 機械は人間の発話の感情のトーンを認識し、共感的な反応を提供することができるため、音声対話システムにおける自然な相互作用を促進するには共感が不可欠である。
近年,大規模言語モデル(LLM)に基づく共感型音声チャットボットの開発が進んでいる。
しかし、コストのかかる共感的音声指導データへの依存や、生成した音声における感情表現性の欠如など、そのようなモデルを訓練する際にも、いくつかの課題が残っている。
クロスモーダルな共感的指示データを用いた微調整LDMは、破滅的な忘れ込みと、その一般的な能力の低下につながる可能性がある。
これらの課題に対処するため、我々はシンプルで効率的な方法で訓練されたエンドツーエンドの共感型音声チャットボットであるFreezeEmpathを提案する。
トレーニングプロセス全体は、LLMのパラメータを凍結させながら、既存の音声命令データと音声感情認識(SER)データにのみ依存する。
実験により、FreezeEmpathは感情表現型音声を生成でき、共感的対話、SER、スポケンQAタスクにおいて他の共感モデルよりも優れており、トレーニング戦略の有効性が示された。
関連論文リスト
- On the Emotion Understanding of Synthesized Speech [63.13411068766772]
感情は音声対話における中核的なパラ言語的特徴である。
現在の音声感情認識(SER)モデルは、合成音声に一般化できない。
生成音声言語モデル(SLM)は、パラ言語的手がかりを無視しながら、テキスト意味論から感情を推測する傾向がある。
論文 参考訳(メタデータ) (2026-03-17T13:11:14Z) - Reflecting Twice before Speaking with Empathy: Self-Reflective Alternating Inference for Empathy-Aware End-to-End Spoken Dialogue [53.95386201009769]
音声対話における共感的品質を評価するための記述型自然言語ベース評価モデルであるEmpathyEvalを紹介する。
本稿では,共感的自己反射的交替推論機構を通じて共感的対話を強化する,エンドツーエンドの音声言語モデルであるReEmpathyを提案する。
論文 参考訳(メタデータ) (2026-01-26T09:04:50Z) - Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning [16.195689085967004]
会話における感情認識(Emotion Recognition in Conversation、ERC)は、人間の感情を理解し、人間とコンピュータの自然な相互作用を可能にするための重要なタスクである。
本稿では,Promptエンジニアリング,実証検索,カリキュラム学習を統合した新しいERCトレーニングフレームワークであるPRC-Emoを提案する。
提案手法は新たなSOTA(State-of-the-art)性能を実現し,提案手法の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2025-11-10T12:52:11Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Empathy Omni: Enabling Empathetic Speech Response Generation through Large Language Models [38.5764934392601]
本研究では,感情オムニ(Emotion Omni)を提案する。
Emotion Omniは、音声品質の既存のモデルを超えながら、大規模な事前訓練をすることなく、同等の命令追従能力を達成する。
論文 参考訳(メタデータ) (2025-08-26T03:54:39Z) - Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Emotion-aware Chat Machine: Automatic Emotional Response Generation for
Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-06T06:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。