Fugu-MT 論文翻訳(概要): Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

論文の概要: Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

arxiv url: http://arxiv.org/abs/2407.21787v3
Date: Mon, 30 Dec 2024 19:03:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-03 22:24:07.794531
Title: Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
Title（参考訳）: 大規模言語モンキー:反復サンプリングによる推論計算のスケーリング
Authors: Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini,
Abstract要約: モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
参考スコア（独自算出の注目度）: 81.34900892130929
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit models to making only one attempt at a problem. Here, we explore inference compute as another axis for scaling, using the simple technique of repeatedly sampling candidate solutions from a model. Across multiple tasks and models, we observe that coverage -- the fraction of problems that are solved by any generated sample -- scales with the number of samples over four orders of magnitude. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. In domains like coding and formal proofs, where answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-Coder-V2-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-sample state-of-the-art of 43%. In domains without automatic verifiers, we find that common methods for picking from a sample collection (majority voting and reward models) plateau beyond several hundred samples and fail to fully scale with the sample budget.
Abstract（参考訳）: 言語モデルのトレーニングに使用する計算量をスケールアップすることで、その能力は劇的に向上した。しかしながら、推論に関しては、モデルに1回だけ問題に取り組むように制限することが多い。本稿では,モデルから候補解を繰り返しサンプリングする簡単な手法を用いて,推論計算をスケーリングの別の軸として検討する。複数のタスクやモデルにまたがって、生成されたサンプルによって解決される問題のごく一部であるカバレッジは、4桁以上のサンプル数でスケールする。興味深いことに、カバレッジとサンプル数の関係は、しばしば対数線形であり、指数化されたパワー法則でモデル化することができ、推論時スケーリング法則の存在を示唆している。コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。 SWE-bench Liteに繰り返しサンプリングを適用すると、DeepSeek-Coder-V2-Instructで解決された問題の割合は15.9%に増加し、1サンプルで56%、250サンプルで56%に増加し、単サンプルの43%を上回った。自動検証のない領域では、サンプル収集(多数投票と報奨モデル)から抽出する一般的な手法が数百のサンプルを超越し、サンプル予算で完全にスケールできないことが判明した。

関連論文リスト

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Convergence Of Consistency Model With Multistep Sampling Under General Data Assumptions [11.317363635566517]
自己整合性特性がトレーニング分布のほぼ下にある場合の整合性モデルの収束性について検討する。私たちの分析では、軽度のデータ仮定しか必要とせず、フォワードプロセスのファミリーに適用される。
論文参考訳（メタデータ） (2025-05-06T05:31:10Z)
Generative Modeling with Bayesian Sample Inference [50.07758840675341]
我々は,反復的なガウス後部推論から新しい生成モデルを導出した。我々のモデルは、未知のサンプルを反復的に絞り込むために、一連の予測と後続の更新ステップを使用する。実験では,BFNと近縁な変分拡散モデルの両方に対して,ImageNet32のサンプル品質が向上することが実証された。
論文参考訳（メタデータ） (2025-02-11T14:27:10Z)
Single-Step Consistent Diffusion Samplers [8.758218443992467]
既存のサンプリングアルゴリズムは通常、高品質なサンプルを作成するために多くの反復的なステップを必要とする。単一ステップで高忠実度サンプルを生成するために設計された新しいサンプルクラスである,一貫した拡散サンプリングを導入している。提案手法は,従来の拡散サンプリング装置で要求されるネットワーク評価の1%以下を用いて,高忠実度サンプルが得られることを示す。
論文参考訳（メタデータ） (2025-02-11T14:25:52Z)
Differentially Private Multi-Sampling from Distributions [4.292685318253575]
本研究は,DPエフェッスルサンプリングのサンプル複雑性,すなわち,このタスクの実行に必要なサンプルの最小数について検討する。エンフルティサンプリングの2つの変種を定義し、そこでは、プライベートに$m>1$サンプルを近似することを目的としている。
論文参考訳（メタデータ） (2024-12-13T19:14:05Z)
Quasi-random Multi-Sample Inference for Large Language Models [1.647759094903376]
大規模言語モデル(LLM)は、しばしばマルチサンプルデコード戦略を備えている。ビームサーチやサンプリングベース技術のような従来のテキスト生成手法には、顕著な制限がある。本研究では,算術的サンプリングの可能性について検討し,祖先的サンプリングと対比する。
論文参考訳（メタデータ） (2024-11-09T18:55:04Z)
Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文参考訳（メタデータ） (2024-10-26T18:34:53Z)
Keep Guessing? When Considering Inference Scaling, Mind the Baselines [45.21178011740911]
大規模言語モデルにおける推論計算のスケーリングは、サンプルの数が増えるにつれて、常にカバレッジ(問題解決の限界)を増大させる。我々は、この観察された改善は、標準評価ベンチマークの回答分布が比較的小さな共通回答の集合に傾いていることによるものであると推測する。
論文参考訳（メタデータ） (2024-10-20T18:43:05Z)
Controllable Generation via Locally Constrained Resampling [77.48624621592523]
本研究では, ベイズ条件付けを行い, 制約条件下でサンプルを描画する, トラクタブルな確率的手法を提案する。提案手法はシーケンス全体を考慮し,現行のグリード法よりも大域的に最適に制約された生成を導出する。提案手法は, 有害な世代からモデル出力を分離し, 脱毒化に対する同様のアプローチより優れていることを示す。
論文参考訳（メタデータ） (2024-10-17T00:49:53Z)
How much can we forget about Data Contamination? [15.893161447368273]
トレーニングデータへのベンチマークデータの漏洩は、大規模言語モデルにとって重要な課題である。実験的なエビデンスと理論的な見積もりを用いて、小規模の汚染がベンチマーク評価を無効にするという一般的な仮定に挑戦する。
論文参考訳（メタデータ） (2024-10-04T09:14:11Z)
Testing properties of distributions in the streaming model [0.0]
標準アクセスモデルと条件アクセスモデルにおける分散テストについて検討する。目標は、メモリ制約を受けるサンプルの最適な数を使って、分散の特性をテストすることである。
論文参考訳（メタデータ） (2023-09-06T10:53:29Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)
Learning Large Scale Sparse Models [6.428186644949941]
サンプルの数や特徴次元が数百万から数十億にも達する大規模環境でスパースモデルを学習することを検討する。ラッソのようなスパースモデルをオンライン的に学習し、ランダムに選択されたサンプルが1つだけ露呈してスパース勾配を更新することを提案する。これにより、メモリコストはサンプルサイズに依存しず、1つのサンプルの勾配評価が効率的となる。
論文参考訳（メタデータ） (2023-01-26T06:29:49Z)
Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文参考訳（メタデータ） (2021-12-16T11:27:48Z)
Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文参考訳（メタデータ） (2021-10-20T12:25:22Z)
Error Detection in Large-Scale Natural Language Understanding Systems Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文参考訳（メタデータ） (2021-09-04T00:10:48Z)
Anytime Sampling for Autoregressive Models via Ordered Autoencoding [88.01906682843618]
自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。これらのモデルのサンプリングプロセスは割り込みを許さず、リアルタイムの計算資源に適応できない。いつでもサンプリングできる新しい自動回帰モデルファミリーを提案します。
論文参考訳（メタデータ） (2021-02-23T05:13:16Z)
One for More: Selecting Generalizable Samples for Generalizable ReID Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2020-12-10T06:37:09Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)
Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文参考訳（メタデータ） (2020-02-21T14:03:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。