論文の概要: Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
- arxiv url: http://arxiv.org/abs/2407.21787v2
- Date: Mon, 16 Sep 2024 17:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 01:06:42.689750
- Title: Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
- Title(参考訳): 大規模言語モンキー:反復サンプリングによる推論計算のスケーリング
- Authors: Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini,
- Abstract要約: 生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。
すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。
多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
- 参考スコア(独自算出の注目度): 81.34900892130929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit the amount of compute to only one attempt per problem. Here, we explore inference compute as another axis for scaling by increasing the number of generated samples. Across multiple tasks and models, we observe that coverage - the fraction of problems solved by any attempt - scales with the number of samples over four orders of magnitude. In domains like coding and formal proofs, where all answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-V2-Coder-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-attempt state-of-the-art of 43% which uses more capable frontier models. Moreover, using current API pricing, amplifying the cheaper DeepSeek model with five samples is more cost-effective and solves more issues than paying a premium for one sample from GPT-4o or Claude 3.5 Sonnet. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. Finally, we find that identifying correct samples out of many generations remains an important direction for future research in domains without automatic verifiers. When solving math word problems from GSM8K and MATH, coverage with Llama-3 models grows to over 95% with 10,000 samples. However, common methods to pick correct solutions from a sample collection, such as majority voting or reward models, plateau beyond several hundred samples and fail to fully scale with the sample budget.
- Abstract(参考訳): 言語モデルのトレーニングに使用する計算量をスケールアップすることで、その能力は劇的に向上した。
しかし、推論に関して言えば、計算量は問題ごとの1回の試行に制限されることが多い。
そこで本研究では,生成サンプル数を増大させることにより,推論計算をスケーリングの別の軸として検討する。
複数のタスクやモデルにまたがって、あらゆる試みによって解決された問題のごく一部であるカバレッジは、4桁以上のサンプル数でスケールする。
すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。
SWE-bench Liteに繰り返しサンプリングを適用すると、DeepSeek-V2-Coder-Instructで解決された問題の割合は15.9%に増加し、1サンプルで56%、250サンプルで56%に増加し、より有能なフロンティアモデルを用いた43%の単一回避状態よりも優れていた。
さらに、現在のAPI価格を使用すると、5つのサンプルでより安価なDeepSeekモデルを増幅する方がコスト効率が高く、GPT-4oやClaude 3.5 Sonnetから1つのサンプルに対してプレミアムを支払うよりも多くの問題を解決する。
興味深いことに、カバレッジとサンプル数の関係は、しばしば対数線形であり、指数化されたパワー法則でモデル化することができ、推論時スケーリング法則の存在を示唆している。
最後に、多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向であることがわかった。
GSM8KとMATHから数学語を解くと、Llama-3モデルのカバレッジは1万のサンプルで95%以上になる。
しかし、多数決や報奨モデルなど、サンプルコレクションから正しいソリューションを選択する一般的な方法は、数百のサンプルを超越し、サンプル予算で完全にスケールできない。
関連論文リスト
- Quasi-random Multi-Sample Inference for Large Language Models [1.647759094903376]
大規模言語モデル(LLM)は、しばしばマルチサンプルデコード戦略を備えている。
ビームサーチやサンプリングベース技術のような従来のテキスト生成手法には、顕著な制限がある。
本研究では,算術的サンプリングの可能性について検討し,祖先的サンプリングと対比する。
論文 参考訳(メタデータ) (2024-11-09T18:55:04Z) - Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Keep Guessing? When Considering Inference Scaling, Mind the Baselines [45.21178011740911]
大規模言語モデルにおける推論計算のスケーリングは、サンプルの数が増えるにつれて、常にカバレッジ(問題解決の限界)を増大させる。
我々は、この観察された改善は、標準評価ベンチマークの回答分布が比較的小さな共通回答の集合に傾いていることによるものであると推測する。
論文 参考訳(メタデータ) (2024-10-20T18:43:05Z) - Controllable Generation via Locally Constrained Resampling [77.48624621592523]
本研究では, ベイズ条件付けを行い, 制約条件下でサンプルを描画する, トラクタブルな確率的手法を提案する。
提案手法はシーケンス全体を考慮し,現行のグリード法よりも大域的に最適に制約された生成を導出する。
提案手法は, 有害な世代からモデル出力を分離し, 脱毒化に対する同様のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T00:49:53Z) - How much can we forget about Data Contamination? [15.893161447368273]
トレーニングデータへのベンチマークデータの漏洩は、大規模言語モデルにとって重要な課題である。
実験的なエビデンスと理論的な見積もりを用いて、小規模の汚染がベンチマーク評価を無効にするという一般的な仮定に挑戦する。
論文 参考訳(メタデータ) (2024-10-04T09:14:11Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Learning Large Scale Sparse Models [6.428186644949941]
サンプルの数や特徴次元が数百万から数十億にも達する大規模環境でスパースモデルを学習することを検討する。
ラッソのようなスパースモデルをオンライン的に学習し、ランダムに選択されたサンプルが1つだけ露呈してスパース勾配を更新することを提案する。
これにより、メモリコストはサンプルサイズに依存しず、1つのサンプルの勾配評価が効率的となる。
論文 参考訳(メタデータ) (2023-01-26T06:29:49Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Error Detection in Large-Scale Natural Language Understanding Systems
Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。
オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。
そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文 参考訳(メタデータ) (2021-09-04T00:10:48Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。