論文の概要: Can Speech LLMs Think while Listening?
- arxiv url: http://arxiv.org/abs/2510.07497v1
- Date: Wed, 08 Oct 2025 19:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.703288
- Title: Can Speech LLMs Think while Listening?
- Title(参考訳): LLMは聴きながら考えることができるか?
- Authors: Yi-Jen Shih, Desh Raj, Chunyang Wu, Wei Zhou, SK Bong, Yashesh Gaur, Jay Mahadeokar, Ozlem Kalinli, Mike Seltzer,
- Abstract要約: CoT(Chain-of- Thought)はテキストベース音声モデルの推論能力を大幅に向上させることが示されている。
そこで本研究では,テキスト空間における推論により,音声のLLMの精度が平均2.4倍向上することを示す。
ユーザクエリが終了する前に,モデルが推論を開始できるようにすることで,推論から追加のレイテンシを低減する手法を提案する。
- 参考スコア(独自算出の注目度): 34.188674303810394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in speech large language models (speech LLMs) have enabled seamless spoken interactions, but these systems still struggle with complex reasoning tasks. Previously, chain-of-thought (CoT) prompting or fine-tuning has been to shown to significantly improve the reasoning abilities of text-based LLMs. In this work, we investigate the effect of CoT fine-tuning for multi-stream speech LLMs, demonstrating that reasoning in text space improves the accuracy of speech LLMs by 2.4x, on average, over a suite of spoken reasoning tasks. Beyond accuracy, the latency of the spoken response is a crucial factor for interacting with voice-based agents. Inspired by the human behavior of "thinking while listening," we propose methods to reduce the additional latency from reasoning by allowing the model to start reasoning before the user query has ended. To achieve this, we introduce an entropy-based metric, "question completeness," which acts as an indicator to guide the model on the optimal time to start reasoning. This method provides greater control over the accuracy-latency trade-off compared with heuristic-based approaches and, under equivalent latency conditions, yields a 4% accuracy gain on ARC-Easy. Finally, we use Direct Preference Optimization (DPO) on preference data created using rejection sampling to push the accuracy-latency pareto frontier further, resulting in a 70% reduction in latency without loss in accuracy.
- Abstract(参考訳): 音声大言語モデル(音声LLM)の最近の進歩により、シームレスな音声対話が可能になったが、これらのシステムは複雑な推論タスクに苦戦している。
これまで、チェーン・オブ・シンクレット(CoT)はテキストベースのLCMの推論能力を大幅に改善することを示してきた。
本研究では,マルチストリーム音声LLMにおけるCoT微調整の効果について検討し,テキスト空間における推論が音声LLMの精度を平均2.4倍向上させることを示した。
正確性以外にも、音声応答のレイテンシは、音声ベースのエージェントと対話する上で重要な要素である。
聴きながら考える”という人間の行動に触発されて、ユーザクエリが終了する前に推論を開始することによって、推論から追加のレイテンシを低減する方法を提案する。
これを実現するために,エントロピーに基づく「探究完全性(question completeness)」という指標を導入する。
この手法は、ヒューリスティックベースのアプローチと比較して精度-遅延トレードオフをより制御し、等価な遅延条件下ではARC-Easy上で4%の精度向上が得られる。
最後に、リジェクションサンプリングを用いて生成した選好データに対して直接選好最適化(DPO)を用い、精度-遅延パリトフロンティアをさらに押し上げ、精度を損なうことなく遅延を70%削減する。
関連論文リスト
- Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech [41.625380059502675]
Think-Verbalize-Speakは、音声配信から推論を分離するフレームワークである。
また、インクリメンタルおよび非同期の要約に基づく遅延効率の高い動詞化器ReVerTについても紹介する。
複数のベンチマークによる実験結果から,本手法は音声の自然さと簡潔さを推論に最小限の影響で向上させることが示された。
論文 参考訳(メタデータ) (2025-09-19T14:34:22Z) - Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.75260664100644]
Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文 参考訳(メタデータ) (2025-08-18T15:14:04Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models [16.920823078873095]
仮想アシスタント(VA)とのフォローアップ会話により、ユーザはキーワードを使って繰り返し呼び出すことなく、VAとシームレスに対話できる。
本稿では,従来の音声文脈とASRの不確実性との連成モデルにより,この手法が大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-28T19:43:43Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。