Fugu-MT 論文翻訳(概要): Scaling Laws for a Multi-Agent Reinforcement Learning Model

論文の概要: Scaling Laws for a Multi-Agent Reinforcement Learning Model

arxiv url: http://arxiv.org/abs/2210.00849v1
Date: Thu, 29 Sep 2022 19:08:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 16:37:50.319957
Title: Scaling Laws for a Multi-Agent Reinforcement Learning Model
Title（参考訳）: マルチエージェント強化学習モデルのスケーリング法則
Authors: Oren Neumann and Claudius Gros
Abstract要約: グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent observation of neural power-law scaling relations has made a significant impact in the field of deep learning. A substantial amount of attention has been dedicated as a consequence to the description of scaling laws, although mostly for supervised learning and only to a reduced extent for reinforcement learning frameworks. In this paper we present an extensive study of performance scaling for a cornerstone reinforcement learning algorithm, AlphaZero. On the basis of a relationship between Elo rating, playing strength and power-law scaling, we train AlphaZero agents on the games Connect Four and Pentago and analyze their performance. We find that player strength scales as a power law in neural network parameter count when not bottlenecked by available compute, and as a power of compute when training optimally sized agents. We observe nearly identical scaling exponents for both games. Combining the two observed scaling laws we obtain a power law relating optimal size to compute similar to the ones observed for language models. We find that the predicted scaling of optimal neural network size fits our data for both games. This scaling law implies that previously published state-of-the-art game-playing models are significantly smaller than their optimal size, given the respective compute budgets. We also show that large AlphaZero models are more sample efficient, performing better than smaller models with the same amount of training data.
Abstract（参考訳）: ニューラルパワーとローのスケーリング関係の最近の観察は、ディープラーニングの分野に大きな影響を与えた。スケーリング法則の記述の結果として、かなりの量の注意が払われてきたが、ほとんどは教師付き学習のためであり、強化学習フレームワークの数が減っただけである。本稿では,基礎強化学習アルゴリズムであるalphazeroの性能スケーリングに関する詳細な研究を行う。 Eloの格付けと演奏強度とパワー・ロー・スケーリングの関係に基づいて、Connect FourとPentagoのゲームでAlphaZeroエージェントを訓練し、そのパフォーマンスを分析します。プレイヤーの強度は、利用可能な計算がボトルネックにならない場合のニューラルネットワークパラメータカウントのパワー則としてスケールし、最適サイズのエージェントを訓練する場合の計算のパワーとしてスケールする。両ゲームでほぼ同一のスケーリング指数を観測する。 2つの観測されたスケーリング法則を組み合わせることで、言語モデルで観測されるものと同様の計算に最適な大きさに関するパワー法則を得る。最適なニューラルネットワークサイズの予測スケーリングが、両方のゲームでデータに適合していることが分かりました。このスケーリング法則は、これまで公表された最先端のゲームプレイングモデルは、それぞれの計算予算を考えると、最適なサイズよりも大幅に小さいことを意味する。また,大規模アルファゼロモデルの方がサンプル効率が良く,同じ量のトレーニングデータを持つ小型モデルよりも優れた性能を示す。

関連論文リスト

Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches [28.569601803576845]
トランスフォーマーアーキテクチャを持つモデルの場合、テスト損失はモデルサイズ、データセットサイズ、トレーニングで使用される計算量と強力な関係を示す。我々の分析はスケーリング法則に関する深い洞察を与え、大きな言語モデルに対する理解を深める可能性がある。
論文参考訳（メタデータ） (2025-03-03T08:57:49Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文参考訳（メタデータ） (2024-06-28T02:20:54Z)
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文参考訳（メタデータ） (2024-05-28T17:33:54Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。 OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文参考訳（メタデータ） (2022-12-14T10:24:50Z)
A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文参考訳（メタデータ） (2022-10-30T15:13:18Z)
Understanding Scaling Laws for Recommendation Models [1.6283945233720964]
DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
論文参考訳（メタデータ） (2022-08-17T19:13:17Z)
Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文参考訳（メタデータ） (2020-01-23T03:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。