Fugu-MT 論文翻訳(概要): Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

論文の概要: Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

arxiv url: http://arxiv.org/abs/2408.00724v3
Date: Mon, 03 Mar 2025 07:53:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 17:04:19.362803
Title: Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
Title（参考訳）: 推論スケーリング法則:言語モデルを用いた問題解決のための計算最適推論の実証分析
Authors: Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang,
Abstract要約: 我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
参考スコア（独自算出の注目度）: 46.959380978972206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While the scaling laws of large language models (LLMs) training have been extensively studied, optimal inference configurations of LLMs remain underexplored. We study inference scaling laws (aka test-time scaling laws) and compute-optimal inference, focusing on the trade-offs between model sizes and generating additional tokens with different inference strategies. As a first step towards understanding and designing compute-optimal inference methods, we studied cost-performance trade-offs for inference strategies such as greedy search, majority voting, best-of-$n$, weighted voting, and two different tree search algorithms, using different model sizes and compute budgets. Our findings suggest that scaling inference compute with inference strategies can be more computationally efficient than scaling model parameters. Additionally, smaller models combined with advanced inference algorithms offer Pareto-optimal trade-offs in cost and performance. For example, the Llemma-7B model, when paired with our novel tree search algorithm, consistently outperforms the Llemma-34B model across all tested inference strategies on the MATH benchmark. We hope these insights contribute to a deeper understanding of inference scaling laws (test-time scaling laws) for LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)訓練のスケーリング法則は広く研究されているが、LLMの最適推論構成はいまだ未定である。我々は、モデルサイズ間のトレードオフに着目し、異なる推論戦略で追加トークンを生成することに焦点を当て、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。計算最適推論手法の理解と設計に向けた第一歩として、モデルサイズと計算予算の異なる2種類の木探索アルゴリズムを用いて、グリージー検索、多数決投票、ベスト・オブ・nドル、重み付き投票などの推論戦略のコストパフォーマンストレードオフについて検討した。この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。さらに、より小さなモデルと高度な推論アルゴリズムを組み合わせることで、Pareto-Optimalのコストとパフォーマンスのトレードオフが実現される。例えば、新しい木探索アルゴリズムと組み合わせたLlemma-7Bモデルは、MATHベンチマークでテストされたすべての推論戦略において、一貫してLlemma-34Bモデルより優れています。これらの知見がLLMの推論スケーリング法則(テストタイムスケーリング法則)のより深い理解に寄与することを願っている。

関連論文リスト

A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。推論コストは、今やリソース全体の負担の重要かつ増大する要素である。本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文参考訳（メタデータ） (2025-06-10T14:47:48Z)
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文参考訳（メタデータ） (2025-05-16T08:28:57Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.62274005080048]
初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文参考訳（メタデータ） (2025-02-17T17:20:41Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文参考訳（メタデータ） (2024-11-29T05:29:47Z)
Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文参考訳（メタデータ） (2024-11-20T09:46:30Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文参考訳（メタデータ） (2024-06-11T13:32:11Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
$\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking Reinforcement Learning Algorithms in Generative Language Model [50.636423457653066]
我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
論文参考訳（メタデータ） (2024-03-11T22:24:14Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Proof of Swarm Based Ensemble Learning for Federated Learning Applications [3.2536767864585663]
連合学習では、プライバシー上の懸念から、集中型アンサンブル学習を直接適用することは不可能である。ビザンティンフォールトトレランス(BFT)のようなほとんどの分散コンセンサスアルゴリズムは、通常そのようなアプリケーションではうまく機能しない。フェデレートされた環境でのアンサンブル学習のための分散コンセンサスアルゴリズムPoSwを提案する。
論文参考訳（メタデータ） (2022-12-28T13:53:34Z)
Optimizing Binary Decision Diagrams with MaxSAT for classification [3.2894524838755608]
説明可能な人工知能への関心の高まりは、解釈可能な機械学習(ML)モデルの必要性を動機付けている。近年、従来の手法の弱点を克服するために、そのようなモデルを計算するためのいくつかの正確な方法が提案されている。本稿ではまず,最適なバイナリ決定図(BDD)を学習するためのSATモデルを提案する。次に、符号化をMaxSATモデルに上げ、限られた深さで最適なBDDを学習します。最後に、MaxSATモデルを介して見つけたBDDの互換性のあるサブツリーをマージする手法を導入することにより、フラグメンテーションの問題に取り組む。
論文参考訳（メタデータ） (2022-03-21T23:17:37Z)
Pretrained Cost Model for Distributed Constraint Optimization Problems [37.79733538931925]
分散制約最適化問題(DCOP)は、最適化問題の重要なサブクラスである。本稿では,DCOPのための新しい非巡回グラフスキーマ表現を提案し,グラフ表現を組み込むためにグラフ注意ネットワーク(GAT)を利用する。我々のモデルであるGAT-PCMは、幅広いDCOPアルゴリズムを向上するために、オフラインで最適なラベル付きデータで事前訓練される。
論文参考訳（メタデータ） (2021-12-08T09:24:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。