論文の概要: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
- arxiv url: http://arxiv.org/abs/2408.00724v1
- Date: Thu, 1 Aug 2024 17:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-04 19:47:32.117486
- Title: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
- Title(参考訳): 言語モデルを用いた問題解決のための計算最適推論の実証分析
- Authors: Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang,
- Abstract要約: 計算最適推論について検討する:モデルと推論戦略を設計し、さらなる推論時間計算を最適にトレードオフし、性能を向上する。
新たな木探索アルゴリズムを用いたより小さな言語モデルでは,パレート・最適トレードオフが典型的に達成されることがわかった。
例えば,MATH500 上の Llemma-34B モデルと競合する精度を Llemma-7B モデルで実現できることを示す。
- 参考スコア(独自算出の注目度): 46.959380978972206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The optimal training configurations of large language models (LLMs) with respect to model sizes and compute budgets have been extensively studied. But how to optimally configure LLMs during inference has not been explored in sufficient depth. We study compute-optimal inference: designing models and inference strategies that optimally trade off additional inference-time compute for improved performance. As a first step towards understanding and designing compute-optimal inference methods, we assessed the effectiveness and computational efficiency of multiple inference strategies such as Greedy Search, Majority Voting, Best-of-N, Weighted Voting, and their variants on two different Tree Search algorithms, involving different model sizes and computational budgets. We found that a smaller language model with a novel tree search algorithm typically achieves a Pareto-optimal trade-off. These results highlight the potential benefits of deploying smaller models equipped with more sophisticated decoding algorithms in budget-constrained scenarios, e.g., on end-devices, to enhance problem-solving accuracy. For instance, we show that the Llemma-7B model can achieve competitive accuracy to a Llemma-34B model on MATH500 while using $2\times$ less FLOPs. Our findings could potentially apply to any generation task with a well-defined measure of success.
- Abstract(参考訳): モデルサイズや計算予算に関して,大規模言語モデル(LLM)の最適トレーニング構成について検討した。
しかし、推論中にLLMを最適に設定する方法は十分な深さでは検討されていない。
計算最適推論について検討する:モデルと推論戦略を設計し、さらなる推論時間計算を最適にトレードオフし、性能を向上する。
計算最適推論手法の理解と設計に向けた第一歩として,Greedy Search,Majority Voting,Best-of-N,Weighted Votingなどの複数の推論手法の有効性と計算効率を,異なるモデルサイズと計算予算を含む2種類の木探索アルゴリズム上で評価した。
新たな木探索アルゴリズムを用いたより小さな言語モデルでは,パレート・最適トレードオフが典型的に達成されることがわかった。
これらの結果は、より洗練された復号アルゴリズムを備えた小型モデルを、例えばエンドデバイス上の予算制約のあるシナリオに配置し、問題解決の精度を高めるという潜在的な利点を浮き彫りにしている。
例えば,MATH500 上の Llemma-34B モデルと競合する精度を Llemma-7B モデルで実現できることを示す。
我々の発見は、成功の明確な尺度で、あらゆる世代タスクに適用できる可能性がある。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。
モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。
本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.62274005080048]
初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。
スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。
スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文 参考訳(メタデータ) (2025-02-17T17:20:41Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。
理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。
より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。
本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-20T09:46:30Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文 参考訳(メタデータ) (2024-06-11T13:32:11Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model [50.636423457653066]
我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。
我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-11T22:24:14Z) - Proof of Swarm Based Ensemble Learning for Federated Learning
Applications [3.2536767864585663]
連合学習では、プライバシー上の懸念から、集中型アンサンブル学習を直接適用することは不可能である。
ビザンティンフォールトトレランス(BFT)のようなほとんどの分散コンセンサスアルゴリズムは、通常そのようなアプリケーションではうまく機能しない。
フェデレートされた環境でのアンサンブル学習のための分散コンセンサスアルゴリズムPoSwを提案する。
論文 参考訳(メタデータ) (2022-12-28T13:53:34Z) - Optimizing Binary Decision Diagrams with MaxSAT for classification [3.2894524838755608]
説明可能な人工知能への関心の高まりは、解釈可能な機械学習(ML)モデルの必要性を動機付けている。
近年、従来の手法の弱点を克服するために、そのようなモデルを計算するためのいくつかの正確な方法が提案されている。
本稿ではまず,最適なバイナリ決定図(BDD)を学習するためのSATモデルを提案する。
次に、符号化をMaxSATモデルに上げ、限られた深さで最適なBDDを学習します。
最後に、MaxSATモデルを介して見つけたBDDの互換性のあるサブツリーをマージする手法を導入することにより、フラグメンテーションの問題に取り組む。
論文 参考訳(メタデータ) (2022-03-21T23:17:37Z) - Pretrained Cost Model for Distributed Constraint Optimization Problems [37.79733538931925]
分散制約最適化問題(DCOP)は、最適化問題の重要なサブクラスである。
本稿では,DCOPのための新しい非巡回グラフスキーマ表現を提案し,グラフ表現を組み込むためにグラフ注意ネットワーク(GAT)を利用する。
我々のモデルであるGAT-PCMは、幅広いDCOPアルゴリズムを向上するために、オフラインで最適なラベル付きデータで事前訓練される。
論文 参考訳(メタデータ) (2021-12-08T09:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。