論文の概要: AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws
- arxiv url: http://arxiv.org/abs/2412.11979v1
- Date: Mon, 16 Dec 2024 16:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:50.124094
- Title: AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws
- Title(参考訳): AlphaZeroのニューラルスケーリングとZipfの法則:ボードゲームとパワーローの物語
- Authors: Oren Neumann, Claudius Gros,
- Abstract要約: 我々は、言語モデルスケーリングの理論を用いて、強化学習アルゴリズムAlphaZeroのパワー・ロースケーリングについて研究する。
学習と推論データにおけるゲーム状態は,環境のツリー構造から生じることが知られているZipfの法則と一致している。
また、逆スケーリング(逆スケーリング)は、サイズを改良するモデルの失敗は、エンドゲーム状態が最も頻繁な状態である特異なZipf曲線と相関していることも見出した。
- 参考スコア(独自算出の注目度): 4.604003661048267
- License:
- Abstract: Neural scaling laws are observed in a range of domains, to date with no clear understanding of why they occur. Recent theories suggest that loss power laws arise from Zipf's law, a power law observed in domains like natural language. One theory suggests that language scaling laws emerge when Zipf-distributed task quanta are learned in descending order of frequency. In this paper we examine power-law scaling in AlphaZero, a reinforcement learning algorithm, using a theory of language-model scaling. We find that game states in training and inference data scale with Zipf's law, which is known to arise from the tree structure of the environment, and examine the correlation between scaling-law and Zipf's-law exponents. In agreement with quanta scaling theory, we find that agents optimize state loss in descending order of frequency, even though this order scales inversely with modelling complexity. We also find that inverse scaling, the failure of models to improve with size, is correlated with unusual Zipf curves where end-game states are among the most frequent states. We show evidence that larger models shift their focus to these less-important states, sacrificing their understanding of important early-game states.
- Abstract(参考訳): ニューラルスケーリングの法則は、これまでは、それらが起こる理由を明確に理解することなく、様々な領域で観察されている。
最近の理論は、損失パワー法則は、自然言語のような領域で観察されるパワー法則であるZipfの法則から生じることを示唆している。
1つの理論は、Zipf分散タスク量子が周波数順の順に学習されたときに言語スケーリング法則が現れることを示唆している。
本稿では、言語モデルスケーリングの理論を用いて、強化学習アルゴリズムであるAlphaZeroのパワーロースケーリングについて検討する。
実環境の木構造から生じるZipfの法則による学習・推論データにおけるゲーム状態について検討し,拡張法則とZipfの法則指数との相関について検討した。
量子化スケーリング理論と一致して、エージェントは、モデリング複雑性と逆スケールであっても、周波数の降下順序で状態損失を最適化する。
また、逆スケーリング(逆スケーリング)は、サイズを改良するモデルの失敗は、エンドゲーム状態が最も頻繁な状態である特異なZipf曲線と相関していることも見出した。
より大規模なモデルはこれらの重要でない状態に焦点を移し、重要なアーリーゲーム状態に対する理解を犠牲にする証拠を示す。
関連論文リスト
- Neural Scaling Laws Rooted in the Data Distribution [0.0]
ディープニューラルネットワークは経験的なニューラルスケーリング法則を示し、誤差はモデルやデータサイズの増加とともにパワー法則として減少する。
パーコレーション理論を用いて,自然データセットを記述する数学的モデルを構築した。
パーコレーション理論シミュレーションから導かれたおもちゃのデータセット上で回帰モデルを訓練して理論を検証した。
論文 参考訳(メタデータ) (2024-12-10T22:01:38Z) - Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Holographic Codes from Hyperinvariant Tensor Networks [70.31754291849292]
提案した超不変テンソルネットワークを量子コードに拡張し,正則な境界相関関数を生成する。
このアプローチは、バルク内の論理状態と境界状態の臨界再正規化群フローの間の辞書を生成する。
論文 参考訳(メタデータ) (2023-04-05T20:28:04Z) - The Quantization Model of Neural Scaling [19.057931064238584]
ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則の減少と、スケールによる新しい機能の突然の出現について説明する。
使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
論文 参考訳(メタデータ) (2023-03-23T17:58:43Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Scaling Laws for a Multi-Agent Reinforcement Learning Model [0.0]
グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。
我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。
最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
論文 参考訳(メタデータ) (2022-09-29T19:08:51Z) - Scaling Laws for Deep Learning [1.90365714903665]
この論文では、これらのコストの根底にあるアルゴリズム的および方法論的制約に対処する体系的なアプローチを採っている。
まず、ディープラーニングトレーニングとプルーニングが、スケーリング法則によって予測可能であり、管理されていることを実証する。
そして、ノイズのない実現可能なケースの探索を通して、DLは実際、低いエラー限界からかなり離れた誤差源によって支配されていることを示す。
論文 参考訳(メタデータ) (2021-08-17T15:37:05Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。