論文の概要: FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training
- arxiv url: http://arxiv.org/abs/2509.02521v1
- Date: Tue, 02 Sep 2025 17:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.11958
- Title: FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training
- Title(参考訳): FLM-Audio: ネイティブフルダブルプレックスチャットボットをデュアルトレーニングで改善
- Authors: Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Wenjia Ma, Aixin Sun, Yequan Wang,
- Abstract要約: フルチェンジダイアログモデルは、ネイティブリスニングと迅速な応答を同時に行う。
TDM(Time-divisioning Time-Divisioning)代替に固有の高応答遅延を克服するため、フルモデルは単一のステップで異なるチャネルをマージする。
本稿では,対話におけるヒューマノイド認知行動を模倣した連続的な「自然な」モノローグを提案する。
時間的アライメントを設計するために、異なる訓練段階にまたがる自然なモノローグの位置を交互に調整する。
この「デュアル」訓練パラダイムは、7B音声対話モデルであるFLM-Audioの構築に極めて有効であることを示す。
- 参考スコア(独自算出の注目度): 38.868221563879366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-duplex dialog models are designed to listen and speak simultaneously with rapid responses to fast-changing user input. Among existing approaches, native full-duplex models merges different channels (e.g. listen and speak) in a single time step, overcoming the high response latency inherent to time-division multiplexing time-division multiplexing (TDM) alternatives. Yet, a key challenge remains: aligning textual monologues with audio streams that operate at different bitrates. The prevailing solution relies on word-level alignment, but this can degrade the language ability of large pre-trained models. Moreover, it requires highly accurate timestamps for every token, which introduces cascading errors and increases pre-processing costs. In this paper, we propose textual monologues in continuous tokens sequence, namely "natural" monologues, which mimics humanoid cognitive behavior in dialogs. For temporal alignment, we alternate the position of the natural monologue - leading or trailing the audio - across different training stages. This "dual" training paradigm proves highly effective in building FLM-Audio, our 7B spoken dialog model that demonstrates superior responsiveness, duplexity, and chatting experiences, as confirmed by experimental results.
- Abstract(参考訳): フル二重ダイアログモデルは、高速に変化するユーザ入力に対して、迅速な応答で聞き取り、同時に話すように設計されている。
既存のアプローチの中で、ネイティブなフルダブルプレックスモデルは、タイムディビジョン多重化時間分割多重化(TDM)に固有の高応答遅延を克服し、異なるチャネル(例えばリスとスポーク)を単一のタイムステップでマージする。
しかし、重要な課題は、テキストのモノローグと異なるビットレートで動作するオーディオストリームの整列だ。
一般的なソリューションは単語レベルのアライメントに依存しているが、これは大きな事前訓練されたモデルの言語能力を低下させる可能性がある。
さらに、トークン毎に高精度なタイムスタンプが必要であるため、カスケードエラーが発生し、前処理コストが増加する。
本稿では,連続トークンシーケンスにおけるテキスト・モノローグ,すなわち,対話におけるヒューマノイド認知行動を模倣した「自然な」モノローグを提案する。
時間的アライメントのために、異なるトレーニング段階にわたって、自然なモノローグ(音声をリードまたは追跡する)の位置を交互に置き換える。
この「二重」訓練パラダイムは,実験結果によって確認された,優れた応答性,二重性,チャット体験を示す7B音声対話モデルであるFLM-Audioの構築に極めて有効であることを示す。
関連論文リスト
- Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance [47.2016265294791]
FD-SLM(Full-Duplex Speech Language Models)は、人間のような対話のためのニュアンスな2話者対話パターンをキャプチャする。
会話能力は、純粋なテキスト会話に比べて劣化することが多い。
そこで我々は,人間の会話計画を模倣する新しいプランニング・インスパイアされたアプローチであるTurnGuideを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:49:43Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [79.0241611035794]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents [12.555910887280199]
フル同期音声対話モデルのための同期LLMを提案する。
実世界の音声対話データをわずか2k時間で有意義で自然な対話を生成するモデルを訓練する。
異なるデータセット上で訓練された2つのエージェント間の相互作用をシミュレートすることにより、モデルがフル同期対話に参加する能力を示す。
論文 参考訳(メタデータ) (2024-09-23T23:01:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。