論文の概要: Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory
- arxiv url: http://arxiv.org/abs/2505.10981v1
- Date: Fri, 16 May 2025 08:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.294624
- Title: Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory
- Title(参考訳): LLM試験時間スケーリングにおけるプロンプト戦略の役割の再考:確率論の立場から
- Authors: Yexiang Liu, Zekun Li, Zhi Fang, Nan Xu, Ran He, Tieniu Tan,
- Abstract要約: 本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を迅速かつ正確に予測し,大規模なサンプリング時間で最良の戦略を選択するための確率理論に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 79.63672515243765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, scaling test-time compute on Large Language Models (LLM) has garnered wide attention. However, there has been limited investigation of how various reasoning prompting strategies perform as scaling. In this paper, we focus on a standard and realistic scaling setting: majority voting. We systematically conduct experiments on 6 LLMs $\times$ 8 prompting strategies $\times$ 6 benchmarks. Experiment results consistently show that as the sampling time and computational overhead increase, complicated prompting strategies with superior initial performance gradually fall behind simple Chain-of-Thought. We analyze this phenomenon and provide theoretical proofs. Additionally, we propose a method according to probability theory to quickly and accurately predict the scaling performance and select the best strategy under large sampling times without extra resource-intensive inference in practice. It can serve as the test-time scaling law for majority voting. Furthermore, we introduce two ways derived from our theoretical analysis to significantly improve the scaling performance. We hope that our research can promote to re-examine the role of complicated prompting, unleash the potential of simple prompting strategies, and provide new insights for enhancing test-time scaling performance.
- Abstract(参考訳): 近年,Large Language Models (LLM) におけるテスト時間計算のスケールアップが注目されている。
しかし、様々な理由づけ戦略がスケーリングとしてどのように機能するかについては、限定的な調査がなされている。
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
我々は6 LLM の $\times$ 8 の戦略に対して $\times$ 6 のベンチマークを体系的に実施する。
実験の結果、サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、徐々に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが判明した。
我々はこの現象を分析し、理論的に証明する。
さらに,スケーリング性能を迅速かつ正確に予測する確率論に基づく手法を提案し,実際に余分なリソース集約的推論を行うことなく,大規模なサンプリング時間の下で最良の戦略を選択する。
多数決のためのテストタイムスケーリング法として機能する。
さらに,本論文では,スケーリング性能を著しく向上させるために,理論的解析から導出した2つの方法を紹介する。
我々の研究は、複雑なプロンプトの役割を再検討し、単純なプロンプト戦略の可能性を解き放ち、テストタイムのスケーリングパフォーマンスを高めるための新たな洞察を得られることを期待しています。
関連論文リスト
- Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-17T15:38:33Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。
計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。
この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T17:16:04Z) - Fast and Accurate Model Scaling [0.0]
スケーリング戦略には、モデル幅、深さ、解像度などが含まれる。
様々なスケーリング戦略がモデルパラメータやアクティベーションに影響を与え、結果として実際のランタイムは大きく異なることが分かる。
現在の一般的なスケーリング戦略とは異なり、モデルアクティベーションw.r.t.の約$O(sqrts)$増加は、提案された高速複合スケーリングの結果は、アクティベーションの約$O(sqrts)$増加に近づき、優れた精度を達成する。
論文 参考訳(メタデータ) (2021-03-11T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。