論文の概要: Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models
- arxiv url: http://arxiv.org/abs/2604.08563v1
- Date: Wed, 18 Mar 2026 00:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.421203
- Title: Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models
- Title(参考訳): 拡張Reasoning Large Language Modelにおけるプロンプティング戦略の温度依存性
- Authors: Mousa Salah, Amgad Muneer,
- Abstract要約: 4つの温度設定でチェーン・オブ・シンドロームとゼロショット・プロンプトを系統的に評価した。
ゼロショットプロンプトは中等度温度でピーク性能を達成する。
- 参考スコア(独自算出の注目度): 0.49109372384514843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extended reasoning models represent a transformative shift in Large Language Model (LLM) capabilities by enabling explicit test-time computation for complex problem solving. However, the optimal configuration of sampling temperature and prompting strategy for these systems remains largely underexplored. We systematically evaluate chain-of-thought and zero-shot prompting across four temperature settings (0.0, 0.4, 0.7, and 1.0) using Grok-4.1 with extended reasoning on 39 mathematical problems from AMO-Bench, a challenging International Mathematical Olympiad-level benchmark. We find that zero-shot prompting achieves peak performance at moderate temperatures, reaching 59% accuracy at T=0.4 and T=0.7, while chain-of-thought prompting performs best at the temperature extremes. Most notably, the benefit of extended reasoning increases from 6x at T=0.0 to 14.3x at T=1.0. These results suggest that temperature should be optimized jointly with prompting strategy, challenging the common practice of using T=0 for reasoning tasks.
- Abstract(参考訳): 拡張推論モデルは、複雑な問題解決のための明示的なテスト時間計算を可能にすることで、Large Language Model(LLM)能力の変革的なシフトを表す。
しかし, サンプリング温度の最適設定とこれらのシステムの促進戦略は, ほとんど未検討のままである。
我々はGrok-4.1を用いて4つの温度設定(0.0, 0.4, 0.7, 1.0)にまたがるチェーン・オブ・シークレットとゼロショットを系統的に評価した。
ゼロショットプロンプトは適度な温度でピーク性能を達成し、T=0.4とT=0.7では59%の精度を達成し、チェーン・オブ・シークレット・プロンプトは温度極端で最高の性能を発揮する。
特に、拡張推論の利点は T=0.0 で 6x から T=1.0 で 14.3x に増加する。
これらの結果から, 温度は, 推理作業にT=0を用いることの一般的な実践に挑戦して, 促進戦略と協調的に最適化されるべきであることが示唆された。
関連論文リスト
- Adaptive Rigor in AI System Evaluation using Temperature-Controlled Verdict Aggregation via Generalized Power Mean [51.56484100374058]
本稿では,5段階判定システムと一般化されたパワー平均アグリゲーションと直感的な温度パラメータT[0.1, 1.0]を組み合わせて評価リガーを制御する手法を提案する。
低温は安全クリティカルな領域に適した悲観的なスコアをもたらし、高温は会話AIに適した寛大なスコアを生み出します。
論文 参考訳(メタデータ) (2026-04-04T09:04:38Z) - On the Role of Temperature Sampling in Test-Time Scaling [5.758728541863352]
大規模なKでは、さらなるスケーリングは利得を得られず、トレースの数に関係なく、ある種の難しい質問は未解決のままである。
Qwen3と5つの代表的な推論ベンチマークで評価された温度スケーリングは、単一温度のTSよりも7.3ポイント高い。
温度スケーリングはまた、ベースモデルが強化学習(RL)でトレーニングされたモデルに匹敵するパフォーマンスに到達することを可能にする。
論文 参考訳(メタデータ) (2025-10-02T23:09:56Z) - Systematic Optimization of Open Source Large Language Models for Mathematical Reasoning [1.8254074486719114]
本稿では,数学的推論タスクのための微調整モデルパラメータについて実践的検討を行う。
数学的推論タスクに関する5つの最先端モデルに対して、水平に最適化されたフレームワークが導入された。
論文 参考訳(メタデータ) (2025-09-08T21:31:43Z) - The Paradox of Stochasticity: Limited Creativity and Computational Decoupling in Temperature-Varied LLM Outputs of Structured Fictional Data [0.0]
本研究では,3つの大言語モデル(LLM)における構成されたフィクションデータ(名前,誕生日)の生成に温度設定とモデル構造がどう影響するかを検討する。
我々は,889個の構造体を合成整合性に検証した330の試験を行った。
重要な発見は、モデルアーキテクチャが計算効率に大きな影響を与え、Mistral:latestとllama3.1:8bはDeepseek-r1:8bより8倍高速であることを示している。
論文 参考訳(メタデータ) (2025-02-12T15:47:48Z) - Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。
モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。
本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:35:25Z) - Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文 参考訳(メタデータ) (2024-11-14T18:31:39Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization [51.41175648612714]
分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。
提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。
提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T19:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。