論文の概要: Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation
- arxiv url: http://arxiv.org/abs/2605.20946v1
- Date: Wed, 20 May 2026 09:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.599925
- Title: Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation
- Title(参考訳): 時折考える:リアルタイム音声生成のための制御されたインターリーブ推論手法
- Authors: Xuan Du, Qiangyu Yan, Wenshuo Li, Borui Jiang, Changming Xiao, Han Shu, Xinghao Chen,
- Abstract要約: 重要な課題は、深い推論を実行しながら、流動的なスピーチを維持することです。
提案手法であるInterRSは,自然言語生成時にのみ推論ステップを挿入することでこの問題に対処する。
シームレスにインターリーブされた音声データを生成する新しいパイプラインを導入する。
- 参考スコア(独自算出の注目度): 15.297424620191158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The thinking-while-speaking paradigm aims to make AI communication more human. A key challenge is maintaining fluent speech while performing deep reasoning. Our method, InterRS, tackles this by inserting reasoning steps only during natural speech generation. This requires high-quality data where reasoning and speech are precisely aligned, and the length ratio are under controlled. We introduce a novel pipeline to generate such seamlessly interleaved audio data. To train our model, we combine interleaved SFT with refined data and reinforcement learning with two new rewards: a TA-Balance Reward to manage timing and thinking-answer ratio, and a Linguistic Quality Reward to refine expression. Experiments show our approach achieves 13% better performance on mathmatical and logic benchmarks while generating instant response like a spoken-language instruct model which outputs fast CoT response. Furthermore, our method generates more natural and fluent answers than prior methods.
- Abstract(参考訳): 考えることの多いパラダイムは、AIコミュニケーションをより人間らしくすることを目的としています。
重要な課題は、深い推論を実行しながら、流動的なスピーチを維持することです。
提案手法であるInterRSは,自然言語生成時にのみ推論ステップを挿入することでこの問題に対処する。
これは、推論と音声が正確に一致し、長さ比が制御されていない高品質なデータを必要とする。
このようなシームレスにインターリーブされた音声データを生成するための新しいパイプラインを導入する。
本モデルの学習には, TA-Balance Reward とLinguistic Quality Reward の2つの新たな報奨, TA-Balance Reward の2つの改良されたデータと強化学習を組み合わせる。
実験により,提案手法は,高速なCoT応答を出力する音声インストラクションモデルのような即時応答を生成しながら,数学的および論理的ベンチマークにおいて13%の性能向上を実現していることが示された。
さらに,本手法は従来手法よりも自然で流動的な解を生成する。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech [41.625380059502675]
Think-Verbalize-Speakは、音声配信から推論を分離するフレームワークである。
また、インクリメンタルおよび非同期の要約に基づく遅延効率の高い動詞化器ReVerTについても紹介する。
複数のベンチマークによる実験結果から,本手法は音声の自然さと簡潔さを推論に最小限の影響で向上させることが示された。
論文 参考訳(メタデータ) (2025-09-19T14:34:22Z) - Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.75260664100644]
Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文 参考訳(メタデータ) (2025-08-18T15:14:04Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。