論文の概要: Scaling Scaling Laws with Board Games
- arxiv url: http://arxiv.org/abs/2104.03113v1
- Date: Wed, 7 Apr 2021 13:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 17:42:10.017764
- Title: Scaling Scaling Laws with Board Games
- Title(参考訳): ボードゲームによるスケーリングルールのスケーリング
- Authors: Andrew L. Jones
- Abstract要約: 我々は、モデルのサイズに基づいて外挿を行うことができるだけでなく、問題の大きさにも適用できることを示しています。
AlphaZero と Hex を用いた一連の実験により,ゲームが大きくなるにつれて,一定量の計算量で達成可能な性能が予測的に低下することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The largest experiments in machine learning now require resources far beyond
the budget of all but a few institutions. Fortunately, it has recently been
shown that the results of these huge experiments can often be extrapolated from
the results of a sequence of far smaller, cheaper experiments. In this work, we
show that not only can the extrapolation be done based on the size of the
model, but on the size of the problem as well. By conducting a sequence of
experiments using AlphaZero and Hex, we show that the performance achievable
with a fixed amount of compute degrades predictably as the game gets larger and
harder. Along with our main result, we further show that increasing the
test-time compute available to an agent can substitute for reduced train-time
compute, and vice versa.
- Abstract(参考訳): 機械学習における最大の実験は、いくつかの機関を除くすべての予算を超えるリソースを必要としている。
幸いにも、これらの巨大な実験の結果は、はるかに小さく安価な実験の連続の結果から外挿されることが多いことが最近示されている。
本研究では,モデルのサイズに基づいて外挿を行うことができるだけでなく,問題の大きさにも基づく外挿を行うことができることを示す。
AlphaZero と Hex を用いた一連の実験により,ゲームが大きくなるにつれて,一定量の計算量で達成可能な性能が予測的に低下することを示す。
また,本研究の主な成果と合わせて,エージェントに利用可能なテスト時間計算の増加が,列車時間計算の削減に代えて,その逆も可能であることを示す。
関連論文リスト
- Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - Scaling Laws for a Multi-Agent Reinforcement Learning Model [0.0]
グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。
我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。
最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
論文 参考訳(メタデータ) (2022-09-29T19:08:51Z) - Making use of supercomputers in financial machine learning [0.0]
この記事は、FujitsuとAdvestisのコラボレーションの結果です。
そこで我々は,不楽の高性能コンピュータ上で,投資レコメンデーションを創出する体系的な探索に基づくアルゴリズムを実行した。
その結果,探索ルールの数の増加は最終ルールセットの予測性能の増大をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-03-01T13:26:34Z) - Characterizing and addressing the issue of oversmoothing in neural
autoregressive sequence modeling [49.06391831200667]
提案手法がモデル分布と復号化性能に与える影響について検討する。
神経自己回帰モデルにおいて,過度に持続可能な短い配列が生じる主な原因は,高次スムージングが原因であると結論付けている。
論文 参考訳(メタデータ) (2021-12-16T14:33:12Z) - Is High Variance Unavoidable in RL? A Case Study in Continuous Control [42.960199987696306]
強化学習実験は、明らかに高いばらつきがある。
微妙な詳細は、測定結果に不均等に大きな影響を与える可能性がある。
早期分散の原因の一つが数値不安定性であることを示す。
論文 参考訳(メタデータ) (2021-10-21T15:59:37Z) - Go Small and Similar: A Simple Output Decay Brings Better Performance [6.066543113636522]
本稿では,各クラスに対して,より小さく類似した出力値を割り当てるようにモデルを強制する,出力決定という新しい正規化項を提案する。
実験は、アウトプット・デケイの幅広い適用性、汎用性、および互換性を示す。
論文 参考訳(メタデータ) (2021-06-12T09:36:06Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - The Limit of the Batch Size [79.8857712299211]
大規模バッチトレーニングは、現在の分散ディープラーニングシステムにとって効率的なアプローチである。
本稿では,バッチサイズの限界について検討する。
ステップ・バイ・ステップ比較のための詳細な数値最適化手法を提案する。
論文 参考訳(メタデータ) (2020-06-15T16:18:05Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。