論文の概要: Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.09855v1
- Date: Wed, 14 Jan 2026 20:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.891896
- Title: Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models
- Title(参考訳): 長いが短い:大規模推論モデルのための安定な連続テスト時間スケーリング
- Authors: Michael R. Metel, Yufei Cui, Boxing Chen, Prasanna Parthasarathi,
- Abstract要約: この研究は、新しいシーケンシャルなテスト時間スケーリング手法Min-Seekを提案する。
モデル精度は、広範囲の帰納的思考に対して著しく向上する。
シーケンシャルスケーリングの精度を安定させ、長さを微調整する必要がない。
- 参考スコア(独自算出の注目度): 26.83855034121878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential test-time scaling is a promising training-free method to improve large reasoning model accuracy, but as currently implemented, significant limitations have been observed. Inducing models to think for longer can increase their accuracy, but as the length of reasoning is further extended, it has also been shown to result in accuracy degradation and model instability. This work presents a novel sequential test-time scaling method, Min-Seek, which improves model accuracy significantly over a wide range of induced thoughts, stabilizing the accuracy of sequential scaling, and removing the need for reasoning length fine-tuning. Beyond improving model accuracy over a variety of reasoning tasks, our method is inherently efficient, as only the KV pairs of one additional induced thought are kept in the KV cache during reasoning. With a custom KV cache which stores keys without position embeddings, by dynamically encoding them contiguously before each new generated thought, our method can continue to reason well beyond a model's maximum context length, and under mild conditions has linear computational complexity.
- Abstract(参考訳): 連続的なテスト時間スケーリングは、大規模な推論モデル精度を改善するための有望なトレーニング不要の手法であるが、現在実装されているように、重大な制限が観察されている。
しかし、推論の長さがさらに延長されるにつれて、精度の低下とモデルの不安定性がもたらされることが示されている。
本研究は, モデル精度を広範囲に向上し, 逐次スケーリングの精度を安定化し, 推論長の微調整の必要性を解消する, 新たな逐次テスト時間スケーリング手法Min-Seekを提案する。
様々な推論タスクに対するモデル精度の向上に加えて,提案手法は本質的に効率的であり,推論中にKVキャッシュに付加された1つの思考のKVペアのみが保持される。
位置埋め込みのないキーを格納する独自のKVキャッシュを新たに生成した各思考を連続的に符号化することにより,本手法はモデルの最大文脈長をはるかに超え,軽度条件下では線形計算複雑性を持つ。
関連論文リスト
- DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [108.07030347318624]
より長い思考の連鎖(CoTs)によるスケーリングは、特定の領域におけるLarge Language Models(LLMs)の推論性能を損なう可能性があることを示す。
深層思考に異なる推論手法を採用するためのモデルを教えるための思考-最適スケーリング戦略を提案する。
我々のQwen2.5-32B-Instructに基づく自己改善モデルは、様々なベンチマークで他の蒸留ベースの32B o1-likeモデルより優れています。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Comparison of neural closure models for discretised PDEs [1.9230846600335954]
2つの既存の定理は、その短期的正確性に基づいて、神経閉鎖モデルの長期的正確性についての洞察を与える新しい方法で解釈される。
論文 参考訳(メタデータ) (2022-10-26T12:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。