論文の概要: Unifying Two Types of Scaling Laws from the Perspective of Conditional Kolmogorov Complexity
- arxiv url: http://arxiv.org/abs/2501.06802v2
- Date: Mon, 10 Feb 2025 13:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:43.009301
- Title: Unifying Two Types of Scaling Laws from the Perspective of Conditional Kolmogorov Complexity
- Title(参考訳): 条件付きコルモゴロフ複素性の観点からの2種類のスケーリング法則の統一
- Authors: Jun Wan,
- Abstract要約: 2020年、OpenAIは最初のタイプのスケーリング法則を提案し、モデル損失とパラメータ、データ、トレーニング計算のスケールの関係について説明した。
2024年、OpenAIは第2のスケーリング法則を提案し、モデル推論性能と推論計算の関係を説明した。
- 参考スコア(独自算出の注目度): 13.954122805140145
- License:
- Abstract: In 2020, OpenAI proposed the first type of Scaling Laws, describing the relationships between model loss and the scale of parameters, data, and training computation. In 2024, OpenAI proposed the second type of Scaling Laws, describing the relationship between model inference performance and inference computation. In this paper, we analyze LLMs training and inference processes from the perspective of lossless compression using conditional Kolmogorov complexity, and unify these two types of Scaling Laws. We find that both types of Scaling Laws improve approximation of conditional Kolmogorov complexity by increasing execution steps of Turing machine. The first type of Scaling Laws increases execution steps by increasing number of model parameters. The second type of Scaling Laws increases execution steps by increasing the number of intermediate tokens.
- Abstract(参考訳): 2020年、OpenAIは最初のタイプのスケーリング法則を提案し、モデル損失とパラメータ、データ、トレーニング計算のスケールの関係について説明した。
2024年、OpenAIは第2のスケーリング法則を提案し、モデル推論性能と推論計算の関係を説明した。
本稿では, 条件付きコルモゴロフ複雑性を用いた無損失圧縮の観点から, LLMの学習と推論プロセスの解析を行い, これら2種類のスケーリング法則を統一する。
両種類のスケーリング法則はチューリングマシンの実行ステップを増大させることで条件付きコルモゴロフ複雑性の近似を改善する。
最初のタイプのスケーリング法則は、モデルパラメータの数を増やして実行ステップを増加させる。
第2のスケーリング法則は、中間トークンの数を増やして実行ステップを増加させる。
関連論文リスト
- Gemstones: A Model Suite for Multi-Faceted Scaling Laws [67.46133952358785]
Gemstonesは、これまでで最も包括的なオープンソースのスケーリング法データセットです。
これらのモデルは、異なる学習率、スケジュール、アーキテクチャ形状で訓練されている。
私たちのチェックポイントは、モデルの幅と深さの関数として言語の性能を予測する法則のような、より複雑なスケーリング研究を可能にします。
論文 参考訳(メタデータ) (2025-02-07T18:09:38Z) - Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms [31.42317398879432]
現在の推論アプローチは主に、正確なシミュレーションと$tau$-leapingのような近似メソッドの2つのカテゴリに分類される。
本研究では,高次数値推論スキームの最初の拡張を離散拡散モデルに合わせることで,後者のカテゴリを推し進める。
提案手法を厳密に解析し,KL分散における$theta$-trapezoidal法の2次精度を確立する。
論文 参考訳(メタデータ) (2025-02-01T00:25:21Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Resolving Discrepancies in Compute-Optimal Scaling of Language Models [42.82944266028316]
2つのデータセット上でKaplanスケーリング法則を再現することにより、その相違を説明できる。
注意深い学習率の低下は、そのスケーリング法則の妥当性に欠かせないものである。
論文 参考訳(メタデータ) (2024-06-27T13:02:43Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Two Phases of Scaling Laws for Nearest Neighbor Classifiers [18.93620861346151]
高速スケーリング法則は、データとモデルサイズを単純に増やすことで、機械学習の問題を解決することができることを意味している。
第1段階では、一般化誤差はデータ次元に指数関数的に依存し、急速に減少する。
論文 参考訳(メタデータ) (2023-08-16T09:28:55Z) - GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation [3.441021278275805]
そこで本稿では,半パラメトリック報酬モデルを用いた新たなアルゴリズムを提案する。
我々の研究は、同じアクションフィルタリング法に基づいて構築されたアルゴリズムを提案することによって、同様の報酬モデルを用いて、最先端の複雑さの別の代表的アルゴリズムの範囲を広げる。
本研究は,2本以上の腕を持つ症例に対して,既知の半パラメトリックバンディットアルゴリズムから,これらの手法の優位性を確認するためのシミュレーション結果と,その上界の複雑さを導出したものである。
論文 参考訳(メタデータ) (2023-01-20T19:39:10Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。