論文の概要: Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models
- arxiv url: http://arxiv.org/abs/2508.15827v1
- Date: Mon, 18 Aug 2025 15:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.095963
- Title: Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models
- Title(参考訳): Mini-Omni-Reasoner:大規模音声モデルにおけるToken-Level Thinking-in-Speaking
- Authors: Zhifei Xie, Ziyang Ma, Zihang Liu, Kaiyu Pang, Hongyu Li, Jialin Zhang, Yue Liao, Deheng Ye, Chunyan Miao, Shuicheng Yan,
- Abstract要約: Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
- 参考スコア(独自算出の注目度): 80.75260664100644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning is essential for effective communication and decision-making. While recent advances in LLMs and MLLMs have shown that incorporating explicit reasoning significantly improves understanding and generalization, reasoning in LSMs remains in a nascent stage. Early efforts attempt to transfer the "Thinking-before-Speaking" paradigm from textual models to speech. However, this sequential formulation introduces notable latency, as spoken responses are delayed until reasoning is fully completed, impairing real-time interaction and communication efficiency. To address this, we propose Mini-Omni-Reasoner, a framework that enables reasoning within speech via a novel "Thinking-in-Speaking" formulation. Rather than completing reasoning before producing any verbal output, Mini-Omni-Reasoner interleaves silent reasoning tokens with spoken response tokens at the token level. This design allows continuous speech generation while embedding structured internal reasoning, leveraging the model's high-frequency token processing capability. Although interleaved, local semantic alignment is enforced to ensure that each response token is informed by its preceding reasoning. To support this framework, we introduce Spoken-Math-Problems-3M, a large-scale dataset tailored for interleaved reasoning and response. The dataset ensures that verbal tokens consistently follow relevant reasoning content, enabling accurate and efficient learning of speech-coupled reasoning. Built on a hierarchical Thinker-Talker architecture, Mini-Omni-Reasoner delivers fluent yet logically grounded spoken responses, maintaining both naturalness and precision. On the Spoken-MQA benchmark, it achieves a +19.1% gain in arithmetic reasoning and +6.4% in contextual understanding, with shorter outputs and zero decoding latency.
- Abstract(参考訳): 推論は効果的なコミュニケーションと意思決定に不可欠である。
LLMとMLLMの最近の進歩は、明示的推論を取り入れることによって理解と一般化が著しく向上することを示しているが、LSMの推論は初期段階にある。
初期の試みは、"Thinking-before-Speaking"パラダイムをテキストモデルから音声に移行しようとした。
しかし、このシーケンシャルな定式化は、推論が完全に完了するまで音声応答が遅れ、リアルタイムの対話や通信効率を損なうため、顕著な遅延をもたらす。
そこで本稿では, 音声中の推論を可能にするフレームワークであるMini-Omni-Reasonerを提案する。
動詞出力を生成する前に推論を完了する代わりに、Mini-Omni-Reasonerはトークンレベルで音声応答トークンでサイレント推論トークンをインターリーブする。
この設計は、構造的内部推論を埋め込みながら連続的な音声生成を可能にし、モデルの高周波トークン処理能力を活用する。
インターリーブされているが、各応答トークンが先行する推論によって確実に通知されるように、局所的なセマンティックアライメントが実行される。
このフレームワークをサポートするために、我々は、インターリーブされた推論と応答に適した大規模データセットであるSpken-Math-Problems-3Mを紹介した。
データセットは、言語トークンが関連する推論内容に一貫して従うことを保証し、音声結合推論の正確かつ効率的な学習を可能にする。
階層的なThinker-Talkerアーキテクチャに基づいて構築されたMini-Omni-Reasonerは、自然性と正確性の両方を維持しながら、流動的で論理的に基盤付けられた音声応答を提供する。
Spoken-MQAベンチマークでは、算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models [131.90117151306993]
音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
論文 参考訳(メタデータ) (2025-07-21T08:30:03Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Beyond Words: A Latent Memory Approach to Internal Reasoning in LLMs [0.0]
本研究では,暗黙的な心的表現を大規模言語モデルの内部推論プロセスに統合する枠組みを提案する。
予備実験は、インプリシットメモリモジュールを単純なGPTモデルに組み込むことで、最終トレーニング損失の35%から57%の削減が得られることを示している。
論文 参考訳(メタデータ) (2025-02-28T13:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。