論文の概要: How Do Large Language Monkeys Get Their Power (Laws)?
- arxiv url: http://arxiv.org/abs/2502.17578v1
- Date: Mon, 24 Feb 2025 19:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:51.077659
- Title: How Do Large Language Monkeys Get Their Power (Laws)?
- Title(参考訳): 大規模言語モンキーはどのように力を得るか?
- Authors: Rylan Schaeffer, Joshua Kazdan, John Hughes, Jordan Juravsky, Sara Price, Aengus Lynch, Erik Jones, Robert Kirk, Azalia Mirhoseini, Sanmi Koyejo,
- Abstract要約: 単純な数学的計算は、各問題に対して、失敗率は試行回数とともに指数関数的に減少する、と予測する。
次に、プロブレムごとの指数関数スケーリングを集約スケーリングと整合できることを示すことで、この問題に答える。
私たちの研究は、推論計算のスケーリングによって、ニューラルネットワークモデルのパフォーマンスがどのように改善されるか、より深く理解するのに役立ちます。
- 参考スコア(独自算出の注目度): 20.245443422985154
- License:
- Abstract: Recent research across mathematical problem solving, proof assistant programming and multimodal jailbreaking documents a striking finding: when (multimodal) language model tackle a suite of tasks with multiple attempts per task -- succeeding if any attempt is correct -- then the negative log of the average success rate scales a power law in the number of attempts. In this work, we identify an apparent puzzle: a simple mathematical calculation predicts that on each problem, the failure rate should fall exponentially with the number of attempts. We confirm this prediction empirically, raising a question: from where does aggregate polynomial scaling emerge? We then answer this question by demonstrating per-problem exponential scaling can be made consistent with aggregate polynomial scaling if the distribution of single-attempt success probabilities is heavy tailed such that a small fraction of tasks with extremely low success probabilities collectively warp the aggregate success trend into a power law - even as each problem scales exponentially on its own. We further demonstrate that this distributional perspective explains previously observed deviations from power law scaling, and provides a simple method for forecasting the power law exponent with an order of magnitude lower relative error, or equivalently, ${\sim}2-4$ orders of magnitude less inference compute. Overall, our work contributes to a better understanding of how neural language model performance improves with scaling inference compute and the development of scaling-predictable evaluations of (multimodal) language models.
- Abstract(参考訳): 数学的な問題解決、証明アシスタントプログラミング、マルチモーダルなジェイルブレイクに関する最近の研究は、驚くべき発見である: (マルチモーダル)言語モデルがタスク毎の複数の試行で一組のタスクに取り組む – 試みが正しければ成功する – ならば、平均的な成功率の負のログは、試行数において電力法をスケールする。
簡単な数学的計算により、各問題において、失敗率は試行回数とともに指数関数的に減少する、と予測される。
我々はこの予測を実証的に確認し、疑問を提起する: 集合多項式のスケーリングはどこから現れるのか?
その上で, 単一回避成功確率の分布が, 極端に成功確率の低いタスクのごく一部が, 集合成功傾向を指数関数的に拡張したとしても, 集合多項式スケーリングと整合性を示すことで, この問題に答える。
さらに、この分布的視点は、以前に観測された電力法スケーリングの偏差を説明でき、相対誤差が桁違いに小さい、あるいはほぼ同値な${\sim}2-4$の近似計算で電力法指数を予測するための簡単な方法を提供する。
全体として、我々の研究は、推論計算のスケーリングと、(マルチモーダル)言語モデルのスケーリング予測可能な評価の開発によって、ニューラル言語モデルのパフォーマンスがどのように改善されるか、より深く理解している。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。
理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Maximum likelihood inference for high-dimensional problems with multiaffine variable relations [2.4578723416255754]
本稿では,変数がマルチファイン表現によって関連付けられている推論問題について考察する。
本稿では, 一般化正規分布問題に対して, 交互・反復重み付き最小二乗法 (AIRLS) アルゴリズムを提案し, その収束性を証明する。
論文 参考訳(メタデータ) (2024-09-05T13:07:31Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Multi-task Learning for Gaussian Graphical Regressions with High
Dimensional Covariates [5.726899123970559]
ガウス図形回帰モデルに適合するマルチタスク学習推定器を提案する。
計算には,半滑らかなニュートン法を用いてサブプロブレムを解く,効率的な拡張ラグランジアンアルゴリズムを考える。
マルチタスク学習に基づく推定値の誤差率は、ノード単位のラッソ推定値よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-21T20:48:51Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Berrut Approximated Coded Computing: Straggler Resistance Beyond
Polynomial Computing [34.69732430310801]
本稿では,ストラグラー効果に対処する代替手法として,Berrut Approximated Coded Computing (BACC)を提案する。
BACCは計算複雑性が低い数値的に安定であることが証明されている。
特に、BACCは、サーバのクラスタ上でディープニューラルネットワークをトレーニングするために使用される。
論文 参考訳(メタデータ) (2020-09-17T14:23:38Z) - Statistically Guided Divide-and-Conquer for Sparse Factorization of
Large Matrix [2.345015036605934]
統計的問題をスパース係数回帰として定式化し、分割コンカレントアプローチでそれに取り組む。
第1段階分割では、タスクを1組の同時並列推定(CURE)問題に単純化するための2つの潜時並列アプローチについて検討する。
第2段階分割では、CUREの全解を効率的に追跡するために、一連の単純な増分経路からなる段階学習手法を革新する。
論文 参考訳(メタデータ) (2020-03-17T19:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。