論文の概要: Unifying Two Types of Scaling Laws from the Perspective of Conditional Kolmogorov Complexity
- arxiv url: http://arxiv.org/abs/2501.06802v1
- Date: Sun, 12 Jan 2025 12:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:33.925226
- Title: Unifying Two Types of Scaling Laws from the Perspective of Conditional Kolmogorov Complexity
- Title(参考訳): 条件付きコルモゴロフ複素性の観点からの2種類のスケーリング法則の統一
- Authors: Jun Wan,
- Abstract要約: 2020年、OpenAIは最初のタイプのスケーリング法則を提案し、モデルパフォーマンスとパラメータ、データ、計算の関係を説明した。
2024年、OpenAIは第2のスケーリング法則を提案し、モデル推論性能と推論計算の関係を説明した。
- 参考スコア(独自算出の注目度): 13.954122805140145
- License:
- Abstract: In 2020, OpenAI proposed the first type of Scaling Laws, describing the relationships between model performance and parameters, data, and compute. In 2024, OpenAI proposed the second type of Scaling Laws, describing the relationship between model inference performance and inference computation. In this paper, we analyze LLM training and inference processes from the perspective of lossless compression using conditional Kolmogorov complexity, and unify these two types of Scaling Laws. We find that both types of Scaling Laws improve approximation of conditional Kolmogorov complexity by increasing execution steps $t$. The first type of Scaling Laws increases $t$ by increasing model parameters $y$. The second type of Scaling Laws increases $t$ by increasing the number of output tokens.
- Abstract(参考訳): 2020年、OpenAIは最初のタイプのスケーリング法則を提案し、モデルパフォーマンスとパラメータ、データ、計算の関係を説明した。
2024年、OpenAIは第2のスケーリング法則を提案し、モデル推論性能と推論計算の関係を説明した。
本稿では,条件付きコルモゴロフ複雑性を用いた無損失圧縮の観点からLLM学習と推論プロセスを分析し,これらの2種類のスケーリング法則を統一する。
両方のスケーリング法則は、実行ステップを$t$にすることで、条件付きコルモゴロフ複雑性の近似を改善する。
最初のタイプのスケーリング法則は、モデルパラメータを$y$増やすことで$t$を上昇させる。
第2のスケーリング法則は、出力トークンの数を増やして$t$を上昇させる。
関連論文リスト
- Resolving Discrepancies in Compute-Optimal Scaling of Language Models [42.82944266028316]
2つのデータセット上でKaplanスケーリング法則を再現することにより、その相違を説明できる。
注意深い学習率の低下は、そのスケーリング法則の妥当性に欠かせないものである。
論文 参考訳(メタデータ) (2024-06-27T13:02:43Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Neural Scaling Laws From Large-N Field Theory: Solvable Model Beyond the Ridgeless Limit [0.0]
我々は、Maloney, Roberts, Sully によって提案されたモデルを解くために、大N場の理論手法を用いる。
モデルとトレーニングデータセットのサイズの対称性を説明するダイアグラムレベルでの双対変換を明らかにする。
論文 参考訳(メタデータ) (2024-05-29T18:00:01Z) - gzip Predicts Data-dependent Scaling Laws [2.5461535398221478]
我々は,PCFGの構文特性を調節することにより,様々な複雑さのトレーニングデータセットを生成する。
本稿では,トレーニングデータのgzip圧縮性を考慮したLMのスケーリング法を提案する。
論文 参考訳(メタデータ) (2024-05-26T20:33:08Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - Two Phases of Scaling Laws for Nearest Neighbor Classifiers [18.93620861346151]
高速スケーリング法則は、データとモデルサイズを単純に増やすことで、機械学習の問題を解決することができることを意味している。
第1段階では、一般化誤差はデータ次元に指数関数的に依存し、急速に減少する。
論文 参考訳(メタデータ) (2023-08-16T09:28:55Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Laplace Matching for fast Approximate Inference in Generalized Linear
Models [27.70274403550477]
本論文では,高い近似品質を実現しつつ,計算的に安価に設計した近似推論フレームワークを提案する。
我々が emphLaplace Matching と呼ぶこの概念は、指数群のパラメータ空間間の閉形式、近似、双方向変換を含む。
これにより、GLMにおける推論を(小さな近似誤差で)共役推論に変換する。
論文 参考訳(メタデータ) (2021-05-07T08:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。