論文の概要: DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion
- arxiv url: http://arxiv.org/abs/2601.22889v1
- Date: Fri, 30 Jan 2026 12:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.427004
- Title: DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion
- Title(参考訳): DiffuSpeech: 統一音声テキスト拡散による無意味な思考, 発声回答
- Authors: Yuxuan Lou, Ziming Wu, Yaochen Wang, Yong Liu, Yingxuan Ren, Fuming Lai, Shaobing Lian, Jie Tang, Yang You,
- Abstract要約: 我々は、音声LLMが音声応答とともに内部テキスト推論を生成するパラダイムであるtextbfSilent Thought, Spoken Answer'を紹介する。
本稿では,理解と生成の両方をサポートする最初の拡散型音声テキスト言語モデルを提案する。
実験の結果,最先端の音声合成QAの精度を最大9ポイント向上させることができた。
- 参考スコア(独自算出の注目度): 23.01044837428522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current speech language models generate responses directly without explicit reasoning, leading to errors that cannot be corrected once audio is produced. We introduce \textbf{``Silent Thought, Spoken Answer''} -- a paradigm where speech LLMs generate internal text reasoning alongside spoken responses, with thinking traces informing speech quality. To realize this, we present \method{}, the first diffusion-based speech-text language model supporting both understanding and generation, unifying discrete text and tokenized speech under a single masked diffusion framework. Unlike autoregressive approaches, \method{} jointly generates reasoning traces and speech tokens through iterative denoising, with modality-specific masking schedules. We also construct \dataset{}, the first speech QA dataset with paired text reasoning traces, containing 26K samples totaling 319 hours. Experiments show \method{} achieves state-of-the-art speech-to-speech QA accuracy, outperforming the best baseline by up to 9 points, while attaining the best TTS quality among generative models (6.2\% WER) and preserving language understanding (66.2\% MMLU). Ablations confirm that both the diffusion architecture and thinking traces contribute to these gains.
- Abstract(参考訳): 現在の音声言語モデルは、明示的な推論なしで直接応答を生成し、音声が生成されると修正できないエラーを引き起こす。
本稿では,LLMが音声応答と並行して内部テキスト推論を生成するパラダイムである‘textbf{``Silent Thought, Spoken Answer''を紹介する。
これを実現するために,1つのマスク付き拡散フレームワークの下で,理解と生成,個別テキストの統一,およびトークン化音声をサポートする最初の拡散ベース音声テキスト言語モデルである \method{} を提案する。
自己回帰的アプローチとは異なり、\method{} は反復的認知を通じて推論トレースと音声トークンを共同で生成し、モダリティ固有のマスキングスケジュールを持つ。
また,26Kサンプルの合計319時間を含むペアテキスト推論トレースを用いた最初の音声QAデータセットである \dataset{} を構築した。
実験により、‘method{} は最先端の音声合成QA精度を達成し、最高のベースラインを最大9ポイント上回り、生成モデル (6.2\% WER) の中で最高のTS品質を獲得し、言語理解(66.2\% MMLU)を維持する。
アブレーションは拡散アーキテクチャと思考トレースの両方がこれらの利得に寄与することを確認する。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。