論文の概要: Asynchronous Reasoning: Training-Free Interactive Thinking LLMs
- arxiv url: http://arxiv.org/abs/2512.10931v1
- Date: Thu, 11 Dec 2025 18:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.555309
- Title: Asynchronous Reasoning: Training-Free Interactive Thinking LLMs
- Title(参考訳): Asynchronous Reasoning: トレーニング不要な対話型思考LLM
- Authors: George Yakushev, Nataliia Babina, Masoud Vahid Dastgerdi, Vyacheslav Zhdanovskiy, Alina Shutova, Denis Kuznedelev,
- Abstract要約: 推論は言語モデルの能力と安全性を大幅に改善するが、対話性が低下する。
逐次的相互作用のために構築されたLCMを同時に考え、聴き、出力を生成するために、回転埋め込みの特性を利用する。
我々は,数学,コモンセンス,安全推論に対する我々のアプローチを評価し,正確な思考強化された回答をリアルタイムで生成できることを見出した。
- 参考スコア(独自算出の注目度): 5.751951973255713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many state-of-the-art LLMs are trained to think before giving their answer. Reasoning can greatly improve language model capabilities and safety, but it also makes them less interactive: given a new input, a model must stop thinking before it can respond. Real-world use cases such as voice-based or embedded assistants require an LLM agent to respond and adapt to additional information in real time, which is incompatible with sequential interactions. In contrast, humans can listen, think, and act asynchronously: we begin thinking about the problem while reading it and continue thinking while formulating the answer. In this work, we augment LLMs capable of reasoning to operate in a similar way without additional training. Our method uses the properties of rotary embeddings to enable LLMs built for sequential interactions to simultaneously think, listen, and generate outputs. We evaluate our approach on math, commonsense, and safety reasoning and find that it can generate accurate thinking-augmented answers in real time, reducing time to first non-thinking token from minutes to <= 5s. and the overall real-time delays by 6-11x.
- Abstract(参考訳): 多くの最先端のLSMは、答えを出す前に考えるように訓練されています。
推論は言語モデルの能力と安全性を大幅に改善するが、対話性を損なう。新しい入力が与えられたら、モデルが応答する前に考えるのをやめなければならない。
音声ベースや組込みアシスタントのような実世界のユースケースでは、LLMエージェントが逐次的相互作用とは相容れない追加情報にリアルタイムで応答し、適応する必要がある。
対照的に、人間は耳を傾け、考え、非同期に行動することができる。私たちは、問題を読みながら考え始め、答えを定式化しながら考え続けます。
本研究は,LLMを付加的な訓練を伴わずに,同様の操作を行うことができるように拡張するものである。
本手法では, 逐次的相互作用のためのLCMを同時に考える, 聴く, 出力を生成するために, 回転埋め込みの特性を利用する。
計算,コモンセンス,安全性推論に対する我々のアプローチを評価し,正確な思考強化された回答をリアルタイムで生成し,最初に考えるトークンを数分から5秒に短縮する。
全体のリアルタイム遅延は6-11倍になる。
関連論文リスト
- Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech [41.625380059502675]
Think-Verbalize-Speakは、音声配信から推論を分離するフレームワークである。
また、インクリメンタルおよび非同期の要約に基づく遅延効率の高い動詞化器ReVerTについても紹介する。
複数のベンチマークによる実験結果から,本手法は音声の自然さと簡潔さを推論に最小限の影響で向上させることが示された。
論文 参考訳(メタデータ) (2025-09-19T14:34:22Z) - STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models [131.90117151306993]
音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
論文 参考訳(メタデータ) (2025-07-21T08:30:03Z) - Discrete Minds in a Continuous World: Do Language Models Know Time Passes? [44.46759661130471]
大規模言語モデル(LLM)は、イベントの順序付けや時間推定といった時間的推論のタスクで優れています。
LLMが時間の経過を知覚し、それに応じて意思決定に適応するかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-06T06:37:01Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Retrospective Learning from Interactions [18.5871047885934]
ReSpectは、アノテーションを追加することなく、振り返りを通じて過去のインタラクションでそのような信号から学習する手法である。
外部アノテーションなしでReSpectがタスク完了率を31%から82%に改善したことを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:03Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。