論文の概要: On the Role of Temperature Sampling in Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.02611v1
- Date: Thu, 02 Oct 2025 23:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.204524
- Title: On the Role of Temperature Sampling in Test-Time Scaling
- Title(参考訳): テスト時間スケーリングにおける温度サンプリングの役割について
- Authors: Yuheng Wu, Azalia Mirhoseini, Thierry Tambe,
- Abstract要約: 大規模なKでは、さらなるスケーリングは利得を得られず、トレースの数に関係なく、ある種の難しい質問は未解決のままである。
Qwen3と5つの代表的な推論ベンチマークで評価された温度スケーリングは、単一温度のTSよりも7.3ポイント高い。
温度スケーリングはまた、ベースモデルが強化学習(RL)でトレーニングされたモデルに匹敵するパフォーマンスに到達することを可能にする。
- 参考スコア(独自算出の注目度): 5.758728541863352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can improve reasoning at inference time through test-time scaling (TTS), where multiple reasoning traces are generated and the best one is selected. Prior work shows that increasing the number of samples K steadily improves accuracy. In this paper, we demonstrate that this trend does not hold indefinitely: at large K, further scaling yields no gains, and certain hard questions remain unsolved regardless of the number of traces. Interestingly, we find that different sampling temperatures solve different subsets of problems, implying that single-temperature scaling explores only part of a model's potential. We therefore propose scaling along the temperature dimension, which enlarges the reasoning boundary of LLMs. Averaged over Qwen3 (0.6B, 1.7B, 4B, 8B) and five representative reasoning benchmarks (AIME 2024/2025, MATH500, LiveCodeBench, Hi-ToM), temperature scaling yields an additional 7.3 points over single-temperature TTS. Temperature scaling also enables base models to reach performance comparable to reinforcement learning (RL)-trained counterparts, without additional post-training. We further provide a comprehensive analysis of this phenomenon and design a multi-temperature voting method that reduces the overhead of temperature scaling. Overall, our findings suggest that TTS is more powerful than previously thought, and that temperature scaling offers a simple and effective way to unlock the latent potential of base models.
- Abstract(参考訳): 大規模言語モデル(LLM)はテスト時間スケーリング(TTS)を通じて推論時の推論を改善することができる。
以前の研究では、サンプル数Kの増加は精度を着実に向上させることが示された。
本稿では、この傾向が不確定に保たないことを示す: 大規模なKでは、さらなるスケーリングは利得を得られず、トレースの数に関わらず、ある種の難しい疑問は未解決のままである。
興味深いことに、異なるサンプリング温度が様々な問題のサブセットを解き、単一温度のスケーリングがモデルのポテンシャルの一部だけを探索することを意味する。
そこで我々は, LLMの推論境界を大きくする温度次元に沿ったスケーリングを提案する。
Qwen3 (0.6B, 1.7B, 4B, 8B) 上の平均値と5つの代表的な推論ベンチマーク (AIME 2024/2025, MATH500, LiveCodeBench, Hi-ToM) により、温度スケーリングは高温TSよりも7.3ポイント向上した。
温度スケーリングはまた、ベースモデルが強化学習(RL)でトレーニングされたモデルに匹敵するパフォーマンスに到達することを可能にする。
さらに、この現象を包括的に分析し、温度スケーリングのオーバーヘッドを低減する多温度投票法を設計する。
以上の結果から,TSは従来考えられていたよりも強力であり,温度スケーリングはベースモデルの潜伏するポテンシャルを解き放つための単純かつ効果的な方法であることがわかった。
関連論文リスト
- Improving Diversity in Language Models: When Temperature Fails, Change the Loss [81.73385878967899]
そこで我々は,Precision-Recallフレームワークを利用した言語モデルにおける損失関数の再考を提案する。
以上の結果から,本手法は温度スケーリングと負のログライクなトレーニングを単に組み合わせることよりも,精度とリコールのトレードオフを著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-13T09:37:53Z) - Exploring the Impact of Temperature on Large Language Models:Hot or Cold? [9.70280446429164]
我々は,0から2の範囲の温度が6つの異なる能力を評価するために設計されたデータセットに与える影響を評価する。
本研究は,最適温度選択の複雑さを浮き彫りにして,温度がモデル性能に与える影響を明らかにする。
本稿では,これらの観測効果を利用して,所定のプロンプトの最適温度を推定するBERTに基づく温度セレクタを提案する。
論文 参考訳(メタデータ) (2025-06-08T21:36:26Z) - Monte Carlo Temperature: a robust sampling strategy for LLM's uncertainty quantification methods [1.3892342684177872]
本研究では,温度校正の必要性を解消するロバストサンプリング戦略を提案する。
MCTは、幅広い温度でより堅牢な不確実性推定を提供する。
MCTはオラクル温度と統計的に同等であり、これはよく調整されているが計算に費用がかかるHPOプロセスの理想的な結果である。
論文 参考訳(メタデータ) (2025-02-25T17:33:20Z) - Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。
モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。
本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:35:25Z) - Long Horizon Temperature Scaling [90.03310732189543]
LHTS(Long Horizon Temperature Scaling)は、温度スケールの関節分布をサンプリングするための新しい手法である。
温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-07T18:59:32Z) - Uhlmann Fidelity and Fidelity Susceptibility for Integrable Spin Chains
at Finite Temperature: Exact Results [68.8204255655161]
奇数パリティ部分空間の適切な包含は、中間温度範囲における最大忠実度感受性の向上につながることを示す。
正しい低温の挙動は、2つの最も低い多体エネルギー固有状態を含む近似によって捉えられる。
論文 参考訳(メタデータ) (2021-05-11T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。