論文の概要: Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
- arxiv url: http://arxiv.org/abs/2407.21787v1
- Date: Wed, 31 Jul 2024 17:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:31:11.873384
- Title: Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
- Title(参考訳): 大規模言語モンキー:反復サンプリングによる推論計算のスケーリング
- Authors: Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini,
- Abstract要約: 生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。
すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。
多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
- 参考スコア(独自算出の注目度): 81.34900892130929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit the amount of compute to only one attempt per problem. Here, we explore inference compute as another axis for scaling by increasing the number of generated samples. Across multiple tasks and models, we observe that coverage - the fraction of problems solved by any attempt - scales with the number of samples over four orders of magnitude. In domains like coding and formal proofs, where all answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-V2-Coder-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-attempt state-of-the-art of 43% which uses more capable frontier models. Moreover, using current API pricing, amplifying the cheaper DeepSeek model with five samples is more cost-effective and solves more issues than paying a premium for one sample from GPT-4o or Claude 3.5 Sonnet. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. Finally, we find that identifying correct samples out of many generations remains an important direction for future research in domains without automatic verifiers. When solving math word problems from GSM8K and MATH, coverage with Llama-3 models grows to over 95% with 10,000 samples. However, common methods to pick correct solutions from a sample collection, such as majority voting or reward models, plateau beyond several hundred samples and fail to fully scale with the sample budget.
- Abstract(参考訳): 言語モデルのトレーニングに使用する計算量をスケールアップすることで、その能力は劇的に向上した。
しかし、推論に関して言えば、計算量は問題ごとの1回の試行に制限されることが多い。
そこで本研究では,生成サンプル数を増大させることにより,推論計算をスケーリングの別の軸として検討する。
複数のタスクやモデルにまたがって、あらゆる試みによって解決された問題のごく一部であるカバレッジは、4桁以上のサンプル数でスケールする。
すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。
SWE-bench Liteに繰り返しサンプリングを適用すると、DeepSeek-V2-Coder-Instructで解決された問題の割合は15.9%に増加し、1サンプルで56%、250サンプルで56%に増加し、より有能なフロンティアモデルを用いた43%の単一回避状態よりも優れていた。
さらに、現在のAPI価格を使用すると、5つのサンプルでより安価なDeepSeekモデルを増幅する方がコスト効率が高く、GPT-4oやClaude 3.5 Sonnetから1つのサンプルに対してプレミアムを支払うよりも多くの問題を解決する。
興味深いことに、カバレッジとサンプル数の関係は、しばしば対数線形であり、指数化されたパワー法則でモデル化することができ、推論時スケーリング法則の存在を示唆している。
最後に、多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向であることがわかった。
GSM8KとMATHから数学語を解くと、Llama-3モデルのカバレッジは1万のサンプルで95%以上になる。
しかし、多数決や報奨モデルなど、サンプルコレクションから正しいソリューションを選択する一般的な方法は、数百のサンプルを超越し、サンプル予算で完全にスケールできない。
関連論文リスト
- Single-Step Consistent Diffusion Samplers [8.758218443992467]
既存のサンプリングアルゴリズムは通常、高品質なサンプルを作成するために多くの反復的なステップを必要とする。
単一ステップで高忠実度サンプルを生成するために設計された新しいサンプルクラスである,一貫した拡散サンプリングを導入している。
提案手法は,従来の拡散サンプリング装置で要求されるネットワーク評価の1%以下を用いて,高忠実度サンプルが得られることを示す。
論文 参考訳(メタデータ) (2025-02-11T14:25:52Z) - Differentially Private Multi-Sampling from Distributions [4.292685318253575]
本研究は,DPエフェッスルサンプリングのサンプル複雑性,すなわち,このタスクの実行に必要なサンプルの最小数について検討する。
エンフルティサンプリングの2つの変種を定義し、そこでは、プライベートに$m>1$サンプルを近似することを目的としている。
論文 参考訳(メタデータ) (2024-12-13T19:14:05Z) - Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Keep Guessing? When Considering Inference Scaling, Mind the Baselines [45.21178011740911]
大規模言語モデルにおける推論計算のスケーリングは、サンプルの数が増えるにつれて、常にカバレッジ(問題解決の限界)を増大させる。
我々は、この観察された改善は、標準評価ベンチマークの回答分布が比較的小さな共通回答の集合に傾いていることによるものであると推測する。
論文 参考訳(メタデータ) (2024-10-20T18:43:05Z) - Testing properties of distributions in the streaming model [0.0]
標準アクセスモデルと条件アクセスモデルにおける分散テストについて検討する。
目標は、メモリ制約を受けるサンプルの最適な数を使って、分散の特性をテストすることである。
論文 参考訳(メタデータ) (2023-09-06T10:53:29Z) - Learning Large Scale Sparse Models [6.428186644949941]
サンプルの数や特徴次元が数百万から数十億にも達する大規模環境でスパースモデルを学習することを検討する。
ラッソのようなスパースモデルをオンライン的に学習し、ランダムに選択されたサンプルが1つだけ露呈してスパース勾配を更新することを提案する。
これにより、メモリコストはサンプルサイズに依存しず、1つのサンプルの勾配評価が効率的となる。
論文 参考訳(メタデータ) (2023-01-26T06:29:49Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Anytime Sampling for Autoregressive Models via Ordered Autoencoding [88.01906682843618]
自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。
これらのモデルのサンプリングプロセスは割り込みを許さず、リアルタイムの計算資源に適応できない。
いつでもサンプリングできる新しい自動回帰モデルファミリーを提案します。
論文 参考訳(メタデータ) (2021-02-23T05:13:16Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。