論文の概要: Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
- arxiv url: http://arxiv.org/abs/2510.09592v1
- Date: Fri, 10 Oct 2025 17:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.506614
- Title: Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
- Title(参考訳): Mind-Paced Talk: 音声言語モデルにおけるリアルタイム推論へのデュアルブレインアプローチ
- Authors: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu,
- Abstract要約: 我々は、高忠実でリアルタイムな推論を可能にする脳に触発されたフレームワークであるMind-Paced Talk(MPS)を紹介する。
MPSは「フォーミュレーション・ブレイン(Formulation Brain)」をハイレベルな推論に使用し、流れのある音声生成のために別個の「アーティキュレーション・ブレイン(Articulation Brain)」を誘導する。
- 参考スコア(独自算出の注目度): 81.9612057950385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought (CoT) reasoning due to the prohibitive latency of generating the entire thought process sequentially. Enabling SLMs to think while speaking, similar to humans, is attracting increasing attention. We present, for the first time, Mind-Paced Speaking (MPS), a brain-inspired framework that enables high-fidelity, real-time reasoning. Similar to how humans utilize distinct brain regions for thinking and responding, we propose a novel dual-brain approach, employing a "Formulation Brain" for high-level reasoning to pace and guide a separate "Articulation Brain" for fluent speech generation. This division of labor eliminates mode-switching, preserving the integrity of the reasoning process. Experiments show that MPS significantly outperforms existing think-while-speaking methods and achieves reasoning performance comparable to models that pre-compute the full CoT before speaking, while drastically reducing latency. Under a zero-latency configuration, the proposed method achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and attains a score of 82.5 on the speech conversation task URO-Bench. Our work effectively bridges the gap between high-quality reasoning and real-time interaction.
- Abstract(参考訳): SLM(Real-time Spoken Language Models)は、思考プロセス全体を逐次生成することの禁止的な遅延のため、Chain-of-Thought(CoT)推論を活用するのに苦労する。
人間のように話しながら考えるSLMは、ますます注目を集めている。
私たちは初めて、高忠実でリアルタイムな推論を可能にする脳に触発されたフレームワークであるMind-Paced Talk(MPS)を紹介します。
ヒトが思考と反応に異なる脳領域を利用するのと同じように、我々は「定型脳」をハイレベルな推論に用い、流速な音声生成のために別々の「定型脳」を誘導する新しい二重脳アプローチを提案する。
この分業は、モデムスイッチングを排除し、推論プロセスの完全性を維持する。
実験によると、MPSは既存の思考時発話法を著しく上回り、講演前にCoT全体をプリコンパイルするモデルに匹敵する推論性能を達成し、レイテンシを大幅に削減している。
ゼロレイテンシ構成では,数理推論タスクである Spoken-MQA において92.8% の精度を達成し,音声会話タスクである URO-Bench において82.5 のスコアを得る。
私たちの仕事は、高品質な推論とリアルタイムインタラクションのギャップを効果的に埋めます。
関連論文リスト
- Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech [41.625380059502675]
Think-Verbalize-Speakは、音声配信から推論を分離するフレームワークである。
また、インクリメンタルおよび非同期の要約に基づく遅延効率の高い動詞化器ReVerTについても紹介する。
複数のベンチマークによる実験結果から,本手法は音声の自然さと簡潔さを推論に最小限の影響で向上させることが示された。
論文 参考訳(メタデータ) (2025-09-19T14:34:22Z) - Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.75260664100644]
Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文 参考訳(メタデータ) (2025-08-18T15:14:04Z) - STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models [131.90117151306993]
音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
論文 参考訳(メタデータ) (2025-07-21T08:30:03Z) - Improving Semantic Understanding in Speech Language Models via Brain-tuning [19.732593005537606]
言語モデルは、人間の脳の自然言語に対する反応と驚くほど一致している。
現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示している。
我々は、fMRI記録による微調整により、脳関連バイアスを直接モデルに誘導することで、この制限に対処する。
論文 参考訳(メタデータ) (2024-10-11T20:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。