論文の概要: Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
- arxiv url: http://arxiv.org/abs/2504.12329v1
- Date: Sat, 12 Apr 2025 21:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:07.643993
- Title: Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
- Title(参考訳): 投機的思考:推論時間における大規模モデル誘導による小型モデル推論の強化
- Authors: Wang Yang, Xiang Yue, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: 推論レベルでの推論において,大規模推論モデルによるより小さな推論のガイドを可能にする,トレーニング不要なフレームワークであるSpeculative Thinkingを紹介した。
より有能なモデルに回帰ステップを戦略的に委譲することにより,提案手法は推論モデルの推論精度を向上し,出力を短縮する。
- 参考スコア(独自算出の注目度): 14.963731580129892
- License:
- Abstract: Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still suffers from inefficient, overly lengthy outputs. We introduce Speculative Thinking, a training-free framework that enables large reasoning models to guide smaller ones during inference at the reasoning level, distinct from speculative decoding, which operates at the token level. Our approach is based on two observations: (1) reasoning-supportive tokens such as "wait" frequently appear after structural delimiters like "\n\n", serving as signals for reflection or continuation; and (2) larger models exhibit stronger control over reflective behavior, reducing unnecessary backtracking while improving reasoning quality. By strategically delegating reflective steps to a more capable model, our method significantly boosts the reasoning accuracy of reasoning models while shortening their output. With the assistance of the 32B reasoning model, the 1.5B model's accuracy on MATH500 increases from 83.2% to 89.4%, marking a substantial improvement of 6.2%. Simultaneously, the average output length is reduced from 5439 tokens to 4583 tokens, representing a 15.7% decrease. Moreover, when applied to a non-reasoning model (Qwen-2.5-7B-Instruct), our framework boosts its accuracy from 74.0% to 81.8% on the same benchmark, achieving a relative improvement of 7.8%.
- Abstract(参考訳): 近年の進歩は、ポストトレーニングを活用してモデル推論のパフォーマンスを向上させることで、通常、コストのかかるパイプラインが必要であり、それでも非効率で過度に長いアウトプットに悩まされている。
トークンレベルで動作している投機的復号とは別の,推論レベルでの推論において,大規模推論モデルによるより小さな推論のガイドを可能にする,トレーニング不要なフレームワークである投機的思考を導入する。
提案手法は,(1)リフレクションや継続のシグナルとして機能する「\n\n」のような構造的デリミターの後に,「待機」のような推論支援トークンが頻繁に現れること,(2)大きなモデルでは反射行動に対する強い制御を示し,不必要なバックトラックを低減し,推論品質を向上する,という2つの観察に基づいている。
より有能なモデルに回帰ステップを戦略的に委譲することにより,提案手法は推論モデルの推論精度を向上し,出力を短縮する。
32B推論モデルの助けを借りて、1.5BモデルのMATH500の精度は83.2%から89.4%に向上し、6.2%の大幅な改善となった。
同時に平均出力長は5439トークンから4583トークンに減少し、15.7%減少する。
さらに、非推論モデル(Qwen-2.5-7B-Instruct)に適用すると、同じベンチマークで74.0%から81.8%まで精度が向上し、7.8%の相対的な改善が達成される。
関連論文リスト
- LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。
EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。
異なるモデルファミリー間で顕著な効率向上を示す。
論文 参考訳(メタデータ) (2025-02-05T22:15:21Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model [28.569089876442682]
この研究は弱強一般化に触発され、弱いモデルによって生成されるラベルに強いLMを微調整することで、弱いスーパーバイザーを一貫して上回る。
Weak-to-Strong Preference Optimization (WSPO)を提案し、弱いモデルのアライメント前後の分布差を学習することにより、強力なモデルアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-24T11:06:29Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Beyond Slow Signs in High-fidelity Model Extraction [18.330719989672442]
深層ニューラルネットワークは、訓練に費用がかかり、知的財産価値が豊富である。
それまでの攻撃は、少なくとも3つの隠蔽層を持つランダムデータで訓練されたモデルに対して、逆エンジニアリングモデルパラメーターをfloat64の精度まで向上させることに成功した。
我々は,従来の手法を統合した統一最適化を導入し,計算ツールが性能に著しく影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-14T13:24:07Z) - MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification [32.70084821901212]
MeanSparseは、敵の例に対する畳み込みと注意に基づくニューラルネットワークの堅牢性を改善する方法である。
実験の結果,MeanSparseは75.28%の新しいロバストネス記録を達成した。
論文 参考訳(メタデータ) (2024-06-09T22:14:55Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。