Fugu-MT 論文翻訳(概要): Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory

論文の概要: Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory

arxiv url: http://arxiv.org/abs/2505.10981v1
Date: Fri, 16 May 2025 08:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:14.294624
Title: Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory
Title（参考訳）: LLM試験時間スケーリングにおけるプロンプト戦略の役割の再考:確率論の立場から
Authors: Yexiang Liu, Zekun Li, Zhi Fang, Nan Xu, Ran He, Tieniu Tan,
Abstract要約: 本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。本稿では,スケーリング性能を迅速かつ正確に予測し,大規模なサンプリング時間で最良の戦略を選択するための確率理論に基づく手法を提案する。
参考スコア（独自算出の注目度）: 79.63672515243765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, scaling test-time compute on Large Language Models (LLM) has garnered wide attention. However, there has been limited investigation of how various reasoning prompting strategies perform as scaling. In this paper, we focus on a standard and realistic scaling setting: majority voting. We systematically conduct experiments on 6 LLMs $\times$ 8 prompting strategies $\times$ 6 benchmarks. Experiment results consistently show that as the sampling time and computational overhead increase, complicated prompting strategies with superior initial performance gradually fall behind simple Chain-of-Thought. We analyze this phenomenon and provide theoretical proofs. Additionally, we propose a method according to probability theory to quickly and accurately predict the scaling performance and select the best strategy under large sampling times without extra resource-intensive inference in practice. It can serve as the test-time scaling law for majority voting. Furthermore, we introduce two ways derived from our theoretical analysis to significantly improve the scaling performance. We hope that our research can promote to re-examine the role of complicated prompting, unleash the potential of simple prompting strategies, and provide new insights for enhancing test-time scaling performance.
Abstract（参考訳）: 近年,Large Language Models (LLM) におけるテスト時間計算のスケールアップが注目されている。しかし、様々な理由づけ戦略がスケーリングとしてどのように機能するかについては、限定的な調査がなされている。本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。我々は6 LLM の $\times$ 8 の戦略に対して $\times$ 6 のベンチマークを体系的に実施する。実験の結果、サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、徐々に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが判明した。我々はこの現象を分析し、理論的に証明する。さらに,スケーリング性能を迅速かつ正確に予測する確率論に基づく手法を提案し,実際に余分なリソース集約的推論を行うことなく,大規模なサンプリング時間の下で最良の戦略を選択する。多数決のためのテストタイムスケーリング法として機能する。さらに,本論文では,スケーリング性能を著しく向上させるために,理論的解析から導出した2つの方法を紹介する。我々の研究は、複雑なプロンプトの役割を再検討し、単純なプロンプト戦略の可能性を解き放ち、テストタイムのスケーリングパフォーマンスを高めるための新たな洞察を得られることを期待しています。

関連論文リスト

Probabilistic Optimality for Inference-time Scaling [11.92228840747636]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。本稿では,並列サンプルが独立して同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。このフレームワーク内では,対象性能レベルを達成するために,必要なサンプル数に基づいて理論的な下限を導出し,計算効率のスケーリングに関する第一原理的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-06-27T16:44:11Z)
Scaling Test-time Compute for LLM Agents [51.790752085445384]
テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の向上に顕著な成功を収めた。本研究では,テスト時間スケーリング手法を言語エージェントに適用する最初の体系的な検討を行う。
論文参考訳（メタデータ） (2025-06-15T17:59:47Z)
$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文参考訳（メタデータ） (2025-05-26T20:58:45Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
$φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-17T15:38:33Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)
T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
論文参考訳（メタデータ） (2024-08-01T17:16:04Z)
Fast and Accurate Model Scaling [0.0]
スケーリング戦略には、モデル幅、深さ、解像度などが含まれる。様々なスケーリング戦略がモデルパラメータやアクティベーションに影響を与え、結果として実際のランタイムは大きく異なることが分かる。現在の一般的なスケーリング戦略とは異なり、モデルアクティベーションw.r.t.の約$O(sqrts)$増加は、提案された高速複合スケーリングの結果は、アクティベーションの約$O(sqrts)$増加に近づき、優れた精度を達成する。
論文参考訳（メタデータ） (2021-03-11T18:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。