論文の概要: STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
- arxiv url: http://arxiv.org/abs/2507.15375v1
- Date: Mon, 21 Jul 2025 08:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.321763
- Title: STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
- Title(参考訳): STITCH: 音声言語モデルのための同時思考とチャンク推論
- Authors: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang,
- Abstract要約: 音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
- 参考スコア(独自算出の注目度): 131.90117151306993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Models (SLMs) are designed to take speech inputs and produce spoken responses. However, current SLMs lack the ability to perform an internal, unspoken thinking process before responding. In contrast, humans typically engage in complex mental reasoning internally, enabling them to communicate ideas clearly and concisely. Thus, integrating an unspoken thought process into SLMs is highly desirable. While naively generating a complete chain-of-thought (CoT) reasoning before starting to talk can enable thinking for SLMs, this induces additional latency for the speech response, as the CoT reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a novel generation method that alternates between the generation of unspoken reasoning chunks and spoken response chunks. Since the audio duration of a chunk of spoken response is much longer than the time to generate the tokens in a chunk of spoken response, we use the remaining free time to generate the unspoken reasoning tokens. When a chunk of audio is played to the user, the model continues to generate the next unspoken reasoning chunk, achieving simultaneous thinking and talking. Remarkably, Stitch matches the latency of baselines that cannot generate unspoken CoT by design while outperforming those baselines by 15% on math reasoning datasets; Stitch also performs equally well on non-reasoning datasets as those baseline models. Some animations and demonstrations are on the project page: https://d223302.github.io/STITCH.
- Abstract(参考訳): 音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
しかし、現在のSLMには、応答する前に、内部的に無意味な思考プロセスを実行する能力がない。
対照的に、人間は通常複雑な精神的推論を内部で行い、アイデアを明確かつ簡潔に伝達することができる。
したがって、無意味な思考プロセスをSLMに組み込むことが極めて望ましい。
話し始める前に完全なチェーン・オブ・シークレット(CoT)推論を鼻で生成すると、SLMの思考が可能になるが、これはCoT推論が任意に長くなるため、音声応答のさらなる遅延を引き起こす。
この問題を解決するために,未知の推論チャンクと音声応答チャンクの生成を交互に行う新しい生成法であるStitchを提案する。
音声応答のチャンクの音声持続時間は、音声応答のチャンク内のトークンを生成する時間よりもはるかに長いので、残りの自由時間を用いて未知の推論トークンを生成する。
ユーザに対して一括の音声が再生されると、モデルは次の未知の推論チャンクを生成し、同時に思考と会話を行う。
注目すべきなのは、Stitchは、計算推論データセットでベースラインを15%上回りながら、設計によって未処理のCoTを生成することができないベースラインのレイテンシと一致していることだ。
いくつかのアニメーションとデモは、プロジェクトページにある: https://d223302.github.io/STITCH。
関連論文リスト
- LTS-VoiceAgent: A Listen-Think-Speak Framework for Efficient Streaming Voice Interaction via Semantic Triggering and Incremental Reasoning [27.13598270494417]
LTS-VoiceAgent は Listen-Think-Speak フレームワークである。
意味のある接頭辞を検出するDynamic Semantic Triggerと、背景のThinkerと前景のスピーカーをコーディネートするDual-Role Stream Orchestratorを備えている。
論文 参考訳(メタデータ) (2026-01-26T15:42:35Z) - TIME: Temporally Intelligent Meta-reasoning Engine for Context Triggered Explicit Reasoning [0.0]
我々は、言論や時間的手がかりによって駆動される文脈に敏感なリソースとして、明示的な推論を扱うフレームワークであるTIMEを紹介する。
Timeは、オプションのISO 8601 Time>タグ、サイレントギャップを表すチキンターン、返信のどこにでも現れるショートシンク>ブロックとの対話を強化します。
時系列を探索する対話ベンチマークであるTIMEBench, ギャップとオフセット下でのコモンセンス, 異常検出, 連続性を評価した。
論文 参考訳(メタデータ) (2026-01-08T13:24:49Z) - Asynchronous Reasoning: Training-Free Interactive Thinking LLMs [5.751951973255713]
推論は言語モデルの能力と安全性を大幅に改善するが、対話性が低下する。
逐次的相互作用のために構築されたLCMを同時に考え、聴き、出力を生成するために、回転埋め込みの特性を利用する。
我々は,数学,コモンセンス,安全推論に対する我々のアプローチを評価し,正確な思考強化された回答をリアルタイムで生成できることを見出した。
論文 参考訳(メタデータ) (2025-12-11T18:57:02Z) - Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models [81.9612057950385]
我々は、高忠実でリアルタイムな推論を可能にする脳に触発されたフレームワークであるMind-Paced Talk(MPS)を紹介する。
MPSは「フォーミュレーション・ブレイン(Formulation Brain)」をハイレベルな推論に使用し、流れのある音声生成のために別個の「アーティキュレーション・ブレイン(Articulation Brain)」を誘導する。
論文 参考訳(メタデータ) (2025-10-10T17:50:59Z) - SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models [158.18422855768756]
現在の大規模言語モデル (LLM) と音声言語モデル (SLM) は、ユーザがターンを終えた後にのみ、思考と行動を取る。
これにより、モデルがユーザのターン中に対話するのを防ぎ、考えるのを待つ間、レスポンスのレイテンシが高くなります。
SHANKSは,ユーザ入力を聴きながら,無意味な連鎖推論をSLMが生成できるフレームワークである。
論文 参考訳(メタデータ) (2025-10-08T11:48:59Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech [41.625380059502675]
Think-Verbalize-Speakは、音声配信から推論を分離するフレームワークである。
また、インクリメンタルおよび非同期の要約に基づく遅延効率の高い動詞化器ReVerTについても紹介する。
複数のベンチマークによる実験結果から,本手法は音声の自然さと簡潔さを推論に最小限の影響で向上させることが示された。
論文 参考訳(メタデータ) (2025-09-19T14:34:22Z) - Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.75260664100644]
Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文 参考訳(メタデータ) (2025-08-18T15:14:04Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Training Large Language Models to Reason in a Continuous Latent Space [84.5618790930725]
我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。
実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。
これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems [7.326036800127981]
テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。
音声応答を生成するには、事前に書かれた応答を生成する必要があり、音声シーケンスはテキストシーケンスよりもかなり長い。
本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-18T09:23:54Z) - Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.55545753125674]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。
LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。
GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文 参考訳(メタデータ) (2024-03-14T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。