論文の概要: Unifying Two Types of Scaling Laws from the Perspective of Conditional Kolmogorov Complexity
- arxiv url: http://arxiv.org/abs/2501.06802v2
- Date: Mon, 10 Feb 2025 13:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 16:44:24.712256
- Title: Unifying Two Types of Scaling Laws from the Perspective of Conditional Kolmogorov Complexity
- Title(参考訳): 条件付きコルモゴロフ複素性の観点からの2種類のスケーリング法則の統一
- Authors: Jun Wan,
- Abstract要約: 2020年、OpenAIは最初のタイプのスケーリング法則を提案し、モデル損失とパラメータ、データ、トレーニング計算のスケールの関係について説明した。
2024年、OpenAIは第2のスケーリング法則を提案し、モデル推論性能と推論計算の関係を説明した。
- 参考スコア(独自算出の注目度): 13.954122805140145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 2020, OpenAI proposed the first type of Scaling Laws, describing the relationships between model loss and the scale of parameters, data, and training computation. In 2024, OpenAI proposed the second type of Scaling Laws, describing the relationship between model inference performance and inference computation. In this paper, we analyze LLMs training and inference processes from the perspective of lossless compression using conditional Kolmogorov complexity, and unify these two types of Scaling Laws. We find that both types of Scaling Laws improve approximation of conditional Kolmogorov complexity by increasing execution steps of Turing machine. The first type of Scaling Laws increases execution steps by increasing number of model parameters. The second type of Scaling Laws increases execution steps by increasing the number of intermediate tokens.
- Abstract(参考訳): 2020年、OpenAIは最初のタイプのスケーリング法則を提案し、モデル損失とパラメータ、データ、トレーニング計算のスケールの関係について説明した。
2024年、OpenAIは第2のスケーリング法則を提案し、モデル推論性能と推論計算の関係を説明した。
本稿では, 条件付きコルモゴロフ複雑性を用いた無損失圧縮の観点から, LLMの学習と推論プロセスの解析を行い, これら2種類のスケーリング法則を統一する。
両種類のスケーリング法則はチューリングマシンの実行ステップを増大させることで条件付きコルモゴロフ複雑性の近似を改善する。
最初のタイプのスケーリング法則は、モデルパラメータの数を増やして実行ステップを増加させる。
第2のスケーリング法則は、中間トークンの数を増やして実行ステップを増加させる。
関連論文リスト
- Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches [28.569601803576845]
トランスフォーマーアーキテクチャを持つモデルの場合、テスト損失はモデルサイズ、データセットサイズ、トレーニングで使用される計算量と強力な関係を示す。
我々の分析はスケーリング法則に関する深い洞察を与え、大きな言語モデルに対する理解を深める可能性がある。
論文 参考訳(メタデータ) (2025-03-03T08:57:49Z) - Gemstones: A Model Suite for Multi-Faceted Scaling Laws [67.46133952358785]
Gemstonesは、これまでで最も包括的なオープンソースのスケーリング法データセットです。
これらのモデルは、異なる学習率、スケジュール、アーキテクチャ形状で訓練されている。
私たちのチェックポイントは、モデルの幅と深さの関数として言語の性能を予測する法則のような、より複雑なスケーリング研究を可能にします。
論文 参考訳(メタデータ) (2025-02-07T18:09:38Z) - Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms [31.42317398879432]
現在の推論アプローチは主に、正確なシミュレーションと$tau$-leapingのような近似メソッドの2つのカテゴリに分類される。
本研究では,高次数値推論スキームの最初の拡張を離散拡散モデルに合わせることで,後者のカテゴリを推し進める。
提案手法を厳密に解析し,KL分散における$theta$-trapezoidal法の2次精度を確立する。
論文 参考訳(メタデータ) (2025-02-01T00:25:21Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。
計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。
この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T17:16:04Z) - Resolving Discrepancies in Compute-Optimal Scaling of Language Models [42.82944266028316]
2つのデータセット上でKaplanスケーリング法則を再現することにより、その相違を説明できる。
注意深い学習率の低下は、そのスケーリング法則の妥当性に欠かせないものである。
論文 参考訳(メタデータ) (2024-06-27T13:02:43Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - gzip Predicts Data-dependent Scaling Laws [2.5461535398221478]
我々は,PCFGの構文特性を調節することにより,様々な複雑さのトレーニングデータセットを生成する。
本稿では,トレーニングデータのgzip圧縮性を考慮したLMのスケーリング法を提案する。
論文 参考訳(メタデータ) (2024-05-26T20:33:08Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Two Phases of Scaling Laws for Nearest Neighbor Classifiers [18.93620861346151]
高速スケーリング法則は、データとモデルサイズを単純に増やすことで、機械学習の問題を解決することができることを意味している。
第1段階では、一般化誤差はデータ次元に指数関数的に依存し、急速に減少する。
論文 参考訳(メタデータ) (2023-08-16T09:28:55Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。