論文の概要: FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training
- arxiv url: http://arxiv.org/abs/2509.02521v2
- Date: Thu, 11 Sep 2025 13:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 13:52:32.84189
- Title: FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training
- Title(参考訳): FLM-Audio: ネイティブフルダブルプレックスチャットボットをデュアルトレーニングで改善
- Authors: Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Wenjia Ma, Aixin Sun, Yequan Wang,
- Abstract要約: 完全なダイアログモデルは、迅速な応答を提供すると同時に話すことを目指している。
この問題に対処するために、連続した文と待ち時間からなる自然なモノローグを導入する。
音声と自然なモノローグを意味的に整合させるには,適切なトレーニングパラダイムが不可欠である。
デュアルトレーニングパラダイムは、異なるトレーニングステージ間でモノローグの位置を交換する。
FLM-AudioAudioは,実験結果から確認され,優れた応答特性とチャット体験の相違が認められた。
- 参考スコア(独自算出の注目度): 38.868221563879366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-duplex dialog models aim to listen and speak simultaneously, delivering rapid responses to dynamic user input. Among different solutions to full duplexity, a native solution merges multiple channels in each time step, achieving the lowest latency. However, prevailing designs break down the textual monologue sentences for word-level alignment with audio streams, which degrades language modeling abilities. To help address this issue, we introduce natural monologues, which are composed by continuous sentences and waiting intervals, mimicking humanoid cognitive behavior in dialogs. We find a proper training paradigm to be critical for semantically aligning natural monologues with audio. To this end, we develop a dual training paradigm that alternates the position of the monologues, either leading or trailing the audio, across different training stages. A combination of our natural monologue and dual training strategy is applied in developing FLM-Audio, our 7B spoken dialog chatbot with native full-duplexity. As confirmed by experimental results, FLM-Audio achieves superior response qualities and chatting experiences while requiring significantly less training data.
- Abstract(参考訳): フル二重ダイアログモデルは、動的ユーザ入力に対する迅速な応答を提供すると同時に、聞き取り、話すことを目的としている。
完全な二重性に対するさまざまなソリューションの中で、ネイティブソリューションは各タイムステップで複数のチャネルをマージし、低レイテンシを実現する。
しかし、一般的な設計では、音声ストリームと単語レベルのアライメントのためのテキストモノローグ文が分解され、言語モデリング能力は低下する。
この問題に対処するために,対話におけるヒューマノイド認知行動の模倣として,連続文と待ち時間からなる自然なモノローグを導入する。
自然なモノローグと音声を意味的に整合させるには,適切なトレーニングパラダイムが不可欠である。
この目的のために、我々は、異なる訓練段階にわたって、音声をリードまたは追跡するモノローグの位置を交互に交換するデュアルトレーニングパラダイムを開発する。
音声対話チャットボットFLM-Audioの開発には,自然なモノローグとデュアルトレーニング戦略の組み合わせを適用した。
FLM-Audioは,実験結果から確認したように,学習データを大幅に削減しつつ,優れた応答特性とチャット体験を実現している。
関連論文リスト
- Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance [47.2016265294791]
FD-SLM(Full-Duplex Speech Language Models)は、人間のような対話のためのニュアンスな2話者対話パターンをキャプチャする。
会話能力は、純粋なテキスト会話に比べて劣化することが多い。
そこで我々は,人間の会話計画を模倣する新しいプランニング・インスパイアされたアプローチであるTurnGuideを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:49:43Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [79.0241611035794]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents [12.555910887280199]
フル同期音声対話モデルのための同期LLMを提案する。
実世界の音声対話データをわずか2k時間で有意義で自然な対話を生成するモデルを訓練する。
異なるデータセット上で訓練された2つのエージェント間の相互作用をシミュレートすることにより、モデルがフル同期対話に参加する能力を示す。
論文 参考訳(メタデータ) (2024-09-23T23:01:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。