論文の概要: STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
- arxiv url: http://arxiv.org/abs/2507.15375v1
- Date: Mon, 21 Jul 2025 08:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.321763
- Title: STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
- Title(参考訳): STITCH: 音声言語モデルのための同時思考とチャンク推論
- Authors: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang,
- Abstract要約: 音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
- 参考スコア(独自算出の注目度): 131.90117151306993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Models (SLMs) are designed to take speech inputs and produce spoken responses. However, current SLMs lack the ability to perform an internal, unspoken thinking process before responding. In contrast, humans typically engage in complex mental reasoning internally, enabling them to communicate ideas clearly and concisely. Thus, integrating an unspoken thought process into SLMs is highly desirable. While naively generating a complete chain-of-thought (CoT) reasoning before starting to talk can enable thinking for SLMs, this induces additional latency for the speech response, as the CoT reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a novel generation method that alternates between the generation of unspoken reasoning chunks and spoken response chunks. Since the audio duration of a chunk of spoken response is much longer than the time to generate the tokens in a chunk of spoken response, we use the remaining free time to generate the unspoken reasoning tokens. When a chunk of audio is played to the user, the model continues to generate the next unspoken reasoning chunk, achieving simultaneous thinking and talking. Remarkably, Stitch matches the latency of baselines that cannot generate unspoken CoT by design while outperforming those baselines by 15% on math reasoning datasets; Stitch also performs equally well on non-reasoning datasets as those baseline models. Some animations and demonstrations are on the project page: https://d223302.github.io/STITCH.
- Abstract(参考訳): 音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
しかし、現在のSLMには、応答する前に、内部的に無意味な思考プロセスを実行する能力がない。
対照的に、人間は通常複雑な精神的推論を内部で行い、アイデアを明確かつ簡潔に伝達することができる。
したがって、無意味な思考プロセスをSLMに組み込むことが極めて望ましい。
話し始める前に完全なチェーン・オブ・シークレット(CoT)推論を鼻で生成すると、SLMの思考が可能になるが、これはCoT推論が任意に長くなるため、音声応答のさらなる遅延を引き起こす。
この問題を解決するために,未知の推論チャンクと音声応答チャンクの生成を交互に行う新しい生成法であるStitchを提案する。
音声応答のチャンクの音声持続時間は、音声応答のチャンク内のトークンを生成する時間よりもはるかに長いので、残りの自由時間を用いて未知の推論トークンを生成する。
ユーザに対して一括の音声が再生されると、モデルは次の未知の推論チャンクを生成し、同時に思考と会話を行う。
注目すべきなのは、Stitchは、計算推論データセットでベースラインを15%上回りながら、設計によって未処理のCoTを生成することができないベースラインのレイテンシと一致していることだ。
いくつかのアニメーションとデモは、プロジェクトページにある: https://d223302.github.io/STITCH。
関連論文リスト
- Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Training Large Language Models to Reason in a Continuous Latent Space [84.5618790930725]
我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。
実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。
これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems [7.326036800127981]
テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。
音声応答を生成するには、事前に書かれた応答を生成する必要があり、音声シーケンスはテキストシーケンスよりもかなり長い。
本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-18T09:23:54Z) - Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.55545753125674]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。
LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。
GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文 参考訳(メタデータ) (2024-03-14T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。