論文の概要: OpenS2S: Advancing Open-Source End-to-End Empathetic Large Speech Language Model
- arxiv url: http://arxiv.org/abs/2507.05177v1
- Date: Mon, 07 Jul 2025 16:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.517732
- Title: OpenS2S: Advancing Open-Source End-to-End Empathetic Large Speech Language Model
- Title(参考訳): OpenS2S: オープンソースのエンドツーエンド共感型大言語モデルの改善
- Authors: Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang,
- Abstract要約: 我々は,共感型音声対話を実現するために設計された,完全にオープンソースで透明でエンドツーエンドのLSLMであるOpenS2Sを提案する。
我々の共感型音声テキストモデルBLSP-Emoに基づいて、OpenS2Sは低レイテンシ音声生成を実現するためにストリーミングインターリーブデコードアーキテクチャを用いる。
大規模言語モデルを利用して共感的コンテンツを生成し,テキスト音声システムを制御することにより,多言語多言語多様度を有するスケーラブルな学習コーパスを構築する。
- 参考スコア(独自算出の注目度): 47.84522683404745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empathetic interaction is a cornerstone of human-machine communication, due to the need for understanding speech enriched with paralinguistic cues and generating emotional and expressive responses. However, the most powerful empathetic LSLMs are increasingly closed off, leaving the crucial details about the architecture, data and development opaque to researchers. Given the critical need for transparent research into the LSLMs and empathetic behavior, we present OpenS2S, a fully open-source, transparent and end-to-end LSLM designed to enable empathetic speech interactions. Based on our empathetic speech-to-text model BLSP-Emo, OpenS2S further employs a streaming interleaved decoding architecture to achieve low-latency speech generation. To facilitate end-to-end training, OpenS2S incorporates an automated data construction pipeline that synthesizes diverse, high-quality empathetic speech dialogues at low cost. By leveraging large language models to generate empathetic content and controllable text-to-speech systems to introduce speaker and emotional variation, we construct a scalable training corpus with rich paralinguistic diversity and minimal human supervision. We release the fully open-source OpenS2S model, including the dataset, model weights, pre-training and fine-tuning codes, to empower the broader research community and accelerate innovation in empathetic speech systems. The project webpage can be accessed at https://casia-lm.github.io/OpenS2S
- Abstract(参考訳): 共感的相互作用は、パラ言語的手がかりに富んだ音声を理解し、感情的・表現的応答を生成する必要性から、人間と機械的コミュニケーションの基盤となる。
しかし、最も強力な共感的LSLMは、アーキテクチャ、データ、そして研究者にとって不透明な開発に関する重要な詳細を残して、次第に閉鎖されつつある。
LSLMの透明性と共感行動に関する重要な研究の必要性を踏まえ,共感的音声対話を実現するために設計された,完全にオープンソースで透過的でエンドツーエンドのLSLMであるOpenS2Sを提案する。
我々の共感型音声-テキストモデルBLSP-Emoに基づいて、OpenS2Sはさらに低レイテンシ音声生成を実現するためにストリーミングインターリーブデコードアーキテクチャを採用している。
エンドツーエンドのトレーニングを容易にするため、OpenS2Sには、さまざまな高品質な音声対話を低コストで合成する自動データ構築パイプラインが組み込まれている。
大規模言語モデルを利用して共感的コンテンツを生成し、音声と感情の変動を導入することで、豊かなパラ言語的多様性と最小限の人間監督を備えたスケーラブルなトレーニングコーパスを構築する。
我々は、データセット、モデルウェイト、事前トレーニング、微調整コードを含む完全なオープンソースOpenS2Sモデルをリリースし、幅広い研究コミュニティを活性化し、共感的音声システムの革新を加速します。
プロジェクトのWebページはhttps://casia-lm.github.io/OpenS2Sでアクセスすることができる。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。