論文の概要: FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
- arxiv url: http://arxiv.org/abs/2601.11141v1
- Date: Fri, 16 Jan 2026 10:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.440017
- Title: FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
- Title(参考訳): FlashLabs Chroma 1.0: パーソナライズされた音声クローンを備えたリアルタイムエンドツーエンド音声対話モデル
- Authors: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi,
- Abstract要約: 提案するChromaは,初のオープンソース,リアルタイム,エンドツーエンドの音声対話モデルである。
Chromaは低レイテンシインタラクションと高忠実度パーソナライズされた音声クローンを実現する。
- 参考スコア(独自算出の注目度): 8.882040226116567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .
- Abstract(参考訳): 近年の音声対話システムでは、音声トークンやニューラルオーディオコーデックを活用して、LLMが個別の音声表現を直接操作できるようになっている。
しかし、これらのモデルはしばしば話者のアイデンティティを限定的に保持し、個人化された音声対話を妨げる。
本研究は,低レイテンシインタラクションと高忠実度個別音声クローニングを実現する,初のオープンソース,リアルタイム,エンドツーエンド音声対話モデルであるChroma 1.0を提案する。
Chromaは、マルチターン会話間で高品質なパーソナライズされた音声合成を維持しながら、ストリーミング生成をサポートするインターリーブされたテキストオーディオトークンスケジュール(1:2)を通じて、サブ秒のエンドツーエンドレイテンシを実現する。
実験の結果,Chromaの話者類似度は10.96%向上し,RTF(Real-Time Factor)は0.43と高い推論能力と対話能力を維持した。
私たちのコードとモデルは、https://github.com/FlashLabs-AI-Corp/FlashLabs-Chromaとhttps://huggingface.co/FlashLabs/Chroma-4Bで公開されています。
関連論文リスト
- Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。
本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T08:35:27Z) - Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。
その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。
Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文 参考訳(メタデータ) (2025-05-05T15:05:01Z) - Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents [12.555910887280199]
フル同期音声対話モデルのための同期LLMを提案する。
実世界の音声対話データをわずか2k時間で有意義で自然な対話を生成するモデルを訓練する。
異なるデータセット上で訓練された2つのエージェント間の相互作用をシミュレートすることにより、モデルがフル同期対話に参加する能力を示す。
論文 参考訳(メタデータ) (2024-09-23T23:01:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。