論文の概要: Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models
- arxiv url: http://arxiv.org/abs/2508.18655v1
- Date: Tue, 26 Aug 2025 03:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.671932
- Title: Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models
- Title(参考訳): 感情オムニ:大規模言語モデルによる共感的音声応答の生成
- Authors: Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo,
- Abstract要約: 本稿では,ユーザ音声入力の感情内容を理解し,共感的音声応答を生成する新しいモデルアーキテクチャであるEmotion Omniを提案する。
また,200kの感情対話データセットを構築するために,オープンソースのTSフレームワークに基づくデータ生成パイプラインを開発した。
- 参考スコア(独自算出の注目度): 38.5764934392601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of speech large language models (speech LLMs), users can now interact directly with assistants via speech. However, most existing models simply convert the response content into speech without fully understanding the rich emotional and paralinguistic cues embedded in the user's query. In many cases, the same sentence can have different meanings depending on the emotional expression. Furthermore, emotional understanding is essential for improving user experience in human-machine interaction. Currently, most speech LLMs with empathetic capabilities are trained on massive datasets. This approach requires vast amounts of data and significant computational resources. Therefore, a key challenge lies in how to develop a speech LLM capable of generating empathetic responses with limited data and without the need for large-scale training. To address this challenge, we propose Emotion Omni, a novel model architecture designed to understand the emotional content of user speech input and generate empathetic speech responses. Additionally, we developed a data generation pipeline based on an open-source TTS framework to construct a 200k emotional dialogue dataset, which supports the construction of an empathetic speech assistant. The demos are available at https://w311411.github.io/omni_demo/
- Abstract(参考訳): 音声大言語モデル(音声LLM)の開発により、ユーザーは音声を介してアシスタントと直接対話できるようになった。
しかし、既存のほとんどのモデルは、ユーザのクエリに埋め込まれた豊かな感情的・パラ言語的手がかりを完全に理解することなく、応答内容を音声に変換する。
多くの場合、同じ文は感情的な表現によって異なる意味を持つ。
さらに、人間と機械の相互作用におけるユーザ体験を改善するためには、感情的な理解が不可欠である。
現在、共感能力を持つほとんどの音声LLMは、大量のデータセットで訓練されている。
このアプローチには大量のデータと重要な計算資源が必要です。
したがって、重要な課題は、大規模な訓練を必要とせず、限られたデータで共感的な応答を生成できる音声LLMを開発する方法である。
この課題に対処するために,ユーザ音声入力の感情内容を理解し,共感的音声応答を生成するように設計された,新しいモデルアーキテクチャであるEmotion Omniを提案する。
さらに,200kの感情対話データセットを構築するために,オープンソースのTSフレームワークをベースとしたデータ生成パイプラインを開発し,共感型音声アシスタントの構築を支援する。
デモはhttps://w311411.github.io/omni_demo/で公開されている。
関連論文リスト
- OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model [47.84522683404745]
我々は,共感型音声対話を実現するために設計された,完全にオープンソースで透明でエンドツーエンドのLSLMであるOpenS2Sを提案する。
我々の共感型音声テキストモデルBLSP-Emoに基づいて、OpenS2Sは低レイテンシ音声生成を実現するためにストリーミングインターリーブデコードアーキテクチャを用いる。
大規模言語モデルを利用して共感的コンテンツを生成し,テキスト音声システムを制御することにより,多言語多言語多様度を有するスケーラブルな学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-07-07T16:31:37Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。