論文の概要: A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.19477v1
- Date: Fri, 29 Nov 2024 05:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:13.215641
- Title: A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
- Title(参考訳): 大規模言語モデルのテスト時間計算のための簡易かつ予測可能なスケーリング法
- Authors: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou,
- Abstract要約: 大規模言語モデル(LLM)のテスト時間計算において、証明可能なスケーリング法則を享受する一般二段階アルゴリズムを提案する。
入力問題を前提として,提案アルゴリズムはまず$N$の候補解を生成し,その後,複数ラウンドのノックアウトトーナメントによって最適な解を選択する。
理論的には、提案アルゴリズムの失敗確率は、$N$と$K$に対して指数関数的に崩壊する。
- 参考スコア(独自算出の注目度): 70.07661254213181
- License:
- Abstract: We propose a general two-stage algorithm that enjoys a provable scaling law for the test-time compute of large language models (LLMs). Given an input problem, the proposed algorithm first generates $N$ candidate solutions, and then chooses the best one via a multiple-round knockout tournament where each pair of candidates are compared for $K$ times and only the winners move on to the next round. In a minimalistic implementation, both stages can be executed with a black-box LLM alone and nothing else (e.g., no external verifier or reward model), and a total of $N \times (K + 1)$ highly parallelizable LLM calls are needed for solving an input problem. Assuming that a generated candidate solution is correct with probability $p_{\text{gen}} > 0$ and a comparison between a pair of correct and incorrect solutions identifies the right winner with probability $p_{\text{comp}} > 0.5$ (i.e., better than a random guess), we prove theoretically that the failure probability of the proposed algorithm decays to zero exponentially with respect to $N$ and $K$: $$\mathbb{P}(\text{final output is incorrect}) \le (1 - p_{\text{gen}})^N + \lceil \log_2 N \rceil e^{-2 K (p_{\text{comp}} - 0.5)^2}.$$ Our empirical results with the challenging MMLU-Pro benchmark validate the technical assumptions, as well as the efficacy of the proposed algorithm and the gains from scaling up its test-time compute.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)のテスト時間計算において,証明可能なスケーリング法則を享受する一般2段階アルゴリズムを提案する。
入力問題が発生した場合、提案アルゴリズムはまずN$の候補解を生成し、次に、各候補をK$で比較し、勝者のみが次のラウンドに進む多重ラウンドノックアウトトーナメントを介して最良の解を選択する。
最小限の実装では、両方のステージはブラックボックス LLM だけで実行でき、入力問題を解決するには外部検証や報酬モデルが不要で、合計$N \times (K + 1)$高並列化可能な LLM コールが必要である。
生成された候補解が確率 $p_{\text{gen}} > 0$ で正しいと仮定すると、正解と誤解のペアの比較により、確率 $p_{\text{comp}} > 0.5$ が確率 $p_{\text{comp}} > 0.5$ (つまり、ランダムな推測よりも良い) で正解であることが証明される。
挑戦的なMMLU-Proベンチマークによる実証的な結果から,提案アルゴリズムの有効性と,テスト時間計算のスケールアップによるメリットを検証した。
関連論文リスト
- Differentially-Private Hierarchical Clustering with Provable
Approximation Guarantees [79.59010418610625]
階層クラスタリングのための微分プライベート近似アルゴリズムについて検討する。
例えば、$epsilon$-DPアルゴリズムは入力データセットに対して$O(|V|2/epsilon)$-additiveエラーを示さなければならない。
本稿では,ブロックを正確に復元する1+o(1)$近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-31T19:14:30Z) - Choosing the Right Algorithm With Hints From Complexity Theory [16.33500498939925]
我々は,メトロポリスのアルゴリズムが,合理的な問題サイズを考慮に入れた全てのアルゴリズムの中で,明らかに最良のものであることを示す。
このタイプの人工アルゴリズムは、$O(n log n)$ランタイムを持つので、重要度に基づくコンパクト遺伝的アルゴリズム(sig-cGA)は、高い確率で、DLB問題を解くことができる。
論文 参考訳(メタデータ) (2021-09-14T11:12:32Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Faster Matchings via Learned Duals [31.61057940283721]
機械学習予測のアイデアと「スタート・ウォーム」原始二元アルゴリズムのアイデアを組み合わせる。
まず、予測可能な双対は実現不可能である可能性があるので、予測できない双対を近くの実現可能な解に効率的にマッピングするアルゴリズムを提供する。
第二に、一度双対が実現可能ならば、それらは最適ではないかもしれない。
論文 参考訳(メタデータ) (2021-07-20T21:11:09Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Sparse Hashing for Scalable Approximate Model Counting: Theory and
Practice [36.8421113576893]
n 変数上の CNF 式 F が与えられたとき、モデルカウントや #SAT の問題は F の満足な割り当ての数を計算することである。
近年,効率的なアルゴリズム技術開発への取り組みが急増している。
論文 参考訳(メタデータ) (2020-04-30T11:17:26Z) - Learning Sparse Classifiers: Continuous and Mixed Integer Optimization
Perspectives [10.291482850329892]
混合整数計画法(MIP)は、(最適に) $ell_0$-正規化回帰問題を解くために用いられる。
数分で5万ドルの機能を処理できる正確なアルゴリズムと、$papprox6$でインスタンスに対処できる近似アルゴリズムの2つのクラスを提案する。
さらに,$ell$-regularizedsに対する新しい推定誤差境界を提案する。
論文 参考訳(メタデータ) (2020-01-17T18:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。