論文の概要: Empathy Omni: Enabling Empathetic Speech Response Generation through Large Language Models
- arxiv url: http://arxiv.org/abs/2508.18655v2
- Date: Mon, 08 Sep 2025 08:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.310495
- Title: Empathy Omni: Enabling Empathetic Speech Response Generation through Large Language Models
- Title(参考訳): 共感オムニ:大規模言語モデルによる共感的音声応答生成の実現
- Authors: Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo,
- Abstract要約: 本研究では,感情オムニ(Emotion Omni)を提案する。
Emotion Omniは、音声品質の既存のモデルを超えながら、大規模な事前訓練をすることなく、同等の命令追従能力を達成する。
- 参考スコア(独自算出の注目度): 38.5764934392601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of speech large language models (speech LLMs), users can now interact directly with assistants via speech. However, most existing models only convert response content into speech without fully capturing the rich emotional cues in user queries, where the same sentence may convey different meanings depending on the expression. Emotional understanding is thus essential for improving human-machine interaction. Most empathetic speech LLMs rely on massive datasets, demanding high computational cost. A key challenge is to build models that generate empathetic responses with limited data and without large-scale training. To this end, we propose Emotion Omni, a model that understands emotional content in user speech and generates empathetic responses. We further developed a data pipeline to construct a 200k emotional dialogue dataset supporting empathetic speech assistants. Experiments show that Emotion Omni achieves comparable instruction-following ability without large-scale pretraining, while surpassing existing models in speech quality (UTMOS:4.41) and empathy (Emotion GPT Score: 3.97). These results confirm its improvements in both speech fidelity and emotional expressiveness. Demos are available at https://w311411.github.io/omni_demo/.
- Abstract(参考訳): 音声大言語モデル(音声LLM)の開発により、ユーザーは音声を介してアシスタントと直接対話できるようになった。
しかし、既存のほとんどのモデルは、表現によって異なる意味を伝えることができるユーザクエリにおいて、リッチな感情的な手がかりをフルに取得することなく、応答コンテンツを音声に変換するのみである。
したがって、人間と機械の相互作用を改善するためには感情的理解が不可欠である。
ほとんどの共感音声LLMは大量のデータセットに依存しており、高い計算コストを必要とする。
重要な課題は、大規模なトレーニングなしで限られたデータで共感的応答を生成するモデルを構築することである。
この目的のために,感情オムニ(Emotion Omni)を提案する。
さらに,共感型音声アシスタントをサポートする200kの感情対話データセットを構築するためのデータパイプラインを構築した。
実験の結果,Emotion Omniは音声品質(UTMOS:4.41)と共感(Emotion GPTスコア:3.97)を上回りながら,大規模事前学習を伴わない命令追従能力に匹敵することがわかった。
これらの結果は、音声の忠実度と感情表現性の両方の改善を裏付けるものである。
デモはhttps://w311411.github.io/omni_demo/で公開されている。
関連論文リスト
- OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model [47.84522683404745]
我々は,共感型音声対話を実現するために設計された,完全にオープンソースで透明でエンドツーエンドのLSLMであるOpenS2Sを提案する。
我々の共感型音声テキストモデルBLSP-Emoに基づいて、OpenS2Sは低レイテンシ音声生成を実現するためにストリーミングインターリーブデコードアーキテクチャを用いる。
大規模言語モデルを利用して共感的コンテンツを生成し,テキスト音声システムを制御することにより,多言語多言語多様度を有するスケーラブルな学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-07-07T16:31:37Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。