論文の概要: Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
- arxiv url: http://arxiv.org/abs/2504.12329v1
- Date: Sat, 12 Apr 2025 21:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-26 03:48:49.340506
- Title: Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
- Title(参考訳): 投機的思考:推論時間における大規模モデル誘導による小型モデル推論の強化
- Authors: Wang Yang, Xiang Yue, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: 推論レベルでの推論において,大規模推論モデルによるより小さな推論のガイドを可能にする,トレーニング不要なフレームワークであるSpeculative Thinkingを紹介した。
より有能なモデルに回帰ステップを戦略的に委譲することにより,提案手法は推論モデルの推論精度を向上し,出力を短縮する。
- 参考スコア(独自算出の注目度): 14.963731580129892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still suffers from inefficient, overly lengthy outputs. We introduce Speculative Thinking, a training-free framework that enables large reasoning models to guide smaller ones during inference at the reasoning level, distinct from speculative decoding, which operates at the token level. Our approach is based on two observations: (1) reasoning-supportive tokens such as "wait" frequently appear after structural delimiters like "\n\n", serving as signals for reflection or continuation; and (2) larger models exhibit stronger control over reflective behavior, reducing unnecessary backtracking while improving reasoning quality. By strategically delegating reflective steps to a more capable model, our method significantly boosts the reasoning accuracy of reasoning models while shortening their output. With the assistance of the 32B reasoning model, the 1.5B model's accuracy on MATH500 increases from 83.2% to 89.4%, marking a substantial improvement of 6.2%. Simultaneously, the average output length is reduced from 5439 tokens to 4583 tokens, representing a 15.7% decrease. Moreover, when applied to a non-reasoning model (Qwen-2.5-7B-Instruct), our framework boosts its accuracy from 74.0% to 81.8% on the same benchmark, achieving a relative improvement of 7.8%.
- Abstract(参考訳): 近年の進歩は、ポストトレーニングを活用してモデル推論のパフォーマンスを向上させることで、通常、コストのかかるパイプラインが必要であり、それでも非効率で過度に長いアウトプットに悩まされている。
トークンレベルで動作している投機的復号とは別の,推論レベルでの推論において,大規模推論モデルによるより小さな推論のガイドを可能にする,トレーニング不要なフレームワークである投機的思考を導入する。
提案手法は,(1)リフレクションや継続のシグナルとして機能する「\n\n」のような構造的デリミターの後に,「待機」のような推論支援トークンが頻繁に現れること,(2)大きなモデルでは反射行動に対する強い制御を示し,不必要なバックトラックを低減し,推論品質を向上する,という2つの観察に基づいている。
より有能なモデルに回帰ステップを戦略的に委譲することにより,提案手法は推論モデルの推論精度を向上し,出力を短縮する。
32B推論モデルの助けを借りて、1.5BモデルのMATH500の精度は83.2%から89.4%に向上し、6.2%の大幅な改善となった。
同時に平均出力長は5439トークンから4583トークンに減少し、15.7%減少する。
さらに、非推論モデル(Qwen-2.5-7B-Instruct)に適用すると、同じベンチマークで74.0%から81.8%まで精度が向上し、7.8%の相対的な改善が達成される。
関連論文リスト
- Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning [84.2749507577386]
MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを導入し,大規模モデルから高品質な推論経路を抽出する。
Retro-Searchは、より良い、しかし短いトレースを見つけるための推論パスをふりかえりに修正する。
当社のアプローチでは,モデルが独自のRetro-Search-edトレースに基づいて微調整される自己改善と,弱いから強い改善の2つのユースケースを実現しています。
論文 参考訳(メタデータ) (2025-04-06T06:23:27Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。
EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。
異なるモデルファミリー間で顕著な効率向上を示す。
論文 参考訳(メタデータ) (2025-02-05T22:15:21Z) - Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model [28.569089876442682]
この研究は弱強一般化に触発され、弱いモデルによって生成されるラベルに強いLMを微調整することで、弱いスーパーバイザーを一貫して上回る。
Weak-to-Strong Preference Optimization (WSPO)を提案し、弱いモデルのアライメント前後の分布差を学習することにより、強力なモデルアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-24T11:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。