論文の概要: Strategic Scaling of Test-Time Compute: A Bandit Learning Approach
- arxiv url: http://arxiv.org/abs/2506.12721v1
- Date: Sun, 15 Jun 2025 04:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.718583
- Title: Strategic Scaling of Test-Time Compute: A Bandit Learning Approach
- Title(参考訳): テスト時間計算の戦略的スケーリング:バンドラーニングアプローチ
- Authors: Bowen Zuo, Yinglun Zhu,
- Abstract要約: 大規模言語モデルの性能向上のための効果的な戦略として,テスト時間計算のスケーリングが登場している。
本研究では,フライ時のクエリの難易度を推定し,それに応じて計算量を割り当てる適応アルゴリズムを提案する。
私たちのアルゴリズムは、MATH-500データセットで最大11.10%のパフォーマンス改善、LiveCodeBenchで最大7.41%のパフォーマンス改善を実現しています。
- 参考スコア(独自算出の注目度): 13.735277588793995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test-time compute has emerged as an effective strategy for improving the performance of large language models. However, existing methods typically allocate compute uniformly across all queries, overlooking variation in query difficulty. To address this inefficiency, we formulate test-time compute allocation as a novel bandit learning problem and propose adaptive algorithms that estimate query difficulty on the fly and allocate compute accordingly. Compared to uniform allocation, our algorithms allocate more compute to challenging queries while maintaining accuracy on easier ones. Among challenging queries, our algorithms further learn to prioritize solvable instances, effectively reducing excessive computing on unsolvable queries. We theoretically prove that our algorithms achieve better compute efficiency than uniform allocation and empirically validate their effectiveness on math and code benchmarks. Specifically, our algorithms achieve up to an 11.10% performance improvement (15.04% relative) on the MATH-500 dataset and up to a 7.41% performance improvement (14.40% relative) on LiveCodeBench.
- Abstract(参考訳): 大規模言語モデルの性能向上のための効果的な戦略として,テスト時間計算のスケーリングが登場している。
しかし、既存のメソッドは通常、クエリの困難さのバリエーションを見越して、すべてのクエリに一様に計算を割り当てる。
この非効率性に対処するために、テスト時間計算割り当てを新しい帯域幅学習問題として定式化し、フライ時のクエリの難しさを推定し、それに応じて計算を割り当てる適応アルゴリズムを提案する。
均一なアロケーションと比較すると、より簡単なクエリの精度を維持しながら、より複雑なクエリにより多くの計算を割り当てる。
難解なクエリの中で、我々のアルゴリズムは解決不可能なクエリに対する過剰な計算を効果的に削減し、解決不可能なインスタンスの優先順位付けをさらに学習する。
我々は,アルゴリズムが一様割当よりも計算効率が良いことを理論的に証明し,その有効性を数学やコードベンチマークで実証的に検証する。
具体的には、MATH-500データセットで最大11.10%のパフォーマンス改善(15.04%)、LiveCodeBenchで最大7.41%のパフォーマンス改善(14.40%)を実現しています。
関連論文リスト
- A General Online Algorithm for Optimizing Complex Performance Metrics [5.726378955570775]
我々は,バイナリ,マルチクラス,マルチラベルの分類問題において,様々な複雑なパフォーマンス指標を用いて,直接的に使用可能な汎用オンラインアルゴリズムを導入,分析する。
アルゴリズムの更新と予測のルールは、過去のデータを保存することなく、非常にシンプルで計算的に効率的である。
論文 参考訳(メタデータ) (2024-06-20T21:24:47Z) - Large Language Model-Enhanced Algorithm Selection: Towards Comprehensive Algorithm Representation [27.378185644892984]
本稿では,Large Language Models (LLM) をアルゴリズム選択に導入する。
LLMはアルゴリズムの構造的・意味的な側面を捉えるだけでなく、文脈的認識とライブラリ機能理解も示している。
選択されたアルゴリズムは、与えられた問題と異なるアルゴリズムの一致度によって決定される。
論文 参考訳(メタデータ) (2023-11-22T06:23:18Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Learning to Actively Learn: A Robust Approach [14.46867518436922]
本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文 参考訳(メタデータ) (2020-10-29T06:48:22Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。