論文の概要: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
- arxiv url: http://arxiv.org/abs/2505.15670v1
- Date: Wed, 21 May 2025 15:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.752943
- Title: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
- Title(参考訳): 音声音声合成モデルの効率的・直接二重モデル
- Authors: Ke Hu, Ehsan Hosseini-Asl, Chen Chen, Edresson Casanova, Subhankar Ghosh, Piotr Żelasko, Zhehuai Chen, Jason Li, Jagadeesh Balam, Boris Ginsburg,
- Abstract要約: 本稿では,連続的なユーザ入力とチャネル融合を伴うエージェント出力を特徴とする,新しい2重音声合成(S2S)アーキテクチャを提案する。
ユーザ入力に事前トレーニングされたストリーミングを使用することで、音声事前トレーニングを必要とせずに、第1の二重S2Sモデルを実現できる。
実験結果から,提案モデルが従来の2次モデルよりも,推論,ターンテイク,バージイン能力に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 28.42203609938444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialogue is an intuitive form of human-computer interaction, yet current speech language models often remain constrained to turn-based exchanges, lacking real-time adaptability such as user barge-in. We propose a novel duplex speech to speech (S2S) architecture featuring continuous user inputs and codec agent outputs with channel fusion that directly models simultaneous user and agent streams. Using a pretrained streaming encoder for user input enables the first duplex S2S model without requiring speech pretrain. Separate architectures for agent and user modeling facilitate codec fine-tuning for better agent voices and halve the bitrate (0.6 kbps) compared to previous works. Experimental results show that the proposed model outperforms previous duplex models in reasoning, turn-taking, and barge-in abilities. The model requires significantly less speech data, as speech pretrain is skipped, which markedly simplifies the process of building a duplex S2S model from any LLMs. Finally, it is the first openly available duplex S2S model with training and inference code to foster reproducibility.
- Abstract(参考訳): 音声対話は、人間とコンピュータの相互作用の直感的な形式であるが、現在の音声モデルは、しばしばターンベースの交換に制約され、ユーザバージインのようなリアルタイム適応性に欠ける。
本稿では,連続的なユーザ入力とコーデックエージェントの出力を同時ユーザとエージェントストリームを直接モデル化したチャネル融合による2重音声合成(S2S)アーキテクチャを提案する。
ユーザ入力に事前トレーニングされたストリーミングエンコーダを使用することで、音声事前トレーニングを必要とせずに、最初の二重S2Sモデルを実現できる。
エージェントとユーザモデリングのための別々のアーキテクチャは、コーデックの微調整をしやすくし、以前のものと比べビットレート(0.6kbps)を半減させる。
実験結果から,提案モデルが従来の2次モデルよりも,推論,ターンテイク,バージイン能力に優れていたことが示唆された。
このモデルは、音声プリトレインがスキップされるため、音声データを大幅に少なくし、任意のLLMから二重S2Sモデルを構築するプロセスを著しく単純化する。
最後に、再現性を育むためのトレーニングコードと推論コードを備えた、初めて公開されたDuplex S2Sモデルである。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Duplex Diffusion Models Improve Speech-to-Speech Translation [1.4649095013539173]
音声から音声への翻訳は、自然に2つの方向を持つシーケンスからシーケンスまでの学習タスクである。
両面に拡散確率モデルを適用した2相拡散モデルを提案する。
我々のモデルは、入力と出力の端を反転させることで、可逆的な音声翻訳を可能にする。
論文 参考訳(メタデータ) (2023-05-22T01:39:40Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。