論文の概要: A universal compression theory: Lottery ticket hypothesis and superpolynomial scaling laws
- arxiv url: http://arxiv.org/abs/2510.00504v1
- Date: Wed, 01 Oct 2025 04:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.382483
- Title: A universal compression theory: Lottery ticket hypothesis and superpolynomial scaling laws
- Title(参考訳): 普遍圧縮理論:宝くじの仮説と超ポリノミカルスケーリング法則
- Authors: Hong-Yi Wang, Di Luo, Tomaso Poggio, Isaac L. Chuang, Liu Ziyin,
- Abstract要約: ニューラルネットワークは、学習力学を保ちながら、多対数幅に圧縮可能であることを示す。
また,大きなデータセットを多対数サイズに圧縮でき,対応するモデルの損失状況は変化しないことを示す。
- 参考スコア(独自算出の注目度): 16.542320113452423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When training large-scale models, the performance typically scales with the number of parameters and the dataset size according to a slow power law. A fundamental theoretical and practical question is whether comparable performance can be achieved with significantly smaller models and substantially less data. In this work, we provide a positive and constructive answer. We prove that a generic permutation-invariant function of $d$ objects can be asymptotically compressed into a function of $\operatorname{polylog} d$ objects with vanishing error. This theorem yields two key implications: (Ia) a large neural network can be compressed to polylogarithmic width while preserving its learning dynamics; (Ib) a large dataset can be compressed to polylogarithmic size while leaving the loss landscape of the corresponding model unchanged. (Ia) directly establishes a proof of the \textit{dynamical} lottery ticket hypothesis, which states that any ordinary network can be strongly compressed such that the learning dynamics and result remain unchanged. (Ib) shows that a neural scaling law of the form $L\sim d^{-\alpha}$ can be boosted to an arbitrarily fast power law decay, and ultimately to $\exp(-\alpha' \sqrt[m]{d})$.
- Abstract(参考訳): 大規模なモデルをトレーニングする場合、パフォーマンスは通常、遅い電力法則に従ってパラメータの数とデータセットサイズでスケールする。
基本的な理論的および実践的な疑問は、比較性能が大幅に小さいモデルで達成され、データ量が大幅に少ないかどうかである。
本研究では,肯定的かつ建設的な回答を提供する。
我々は、$d$オブジェクトの汎用置換不変関数が漸近的に$\operatorname{polylog} d$オブジェクトの関数に圧縮されることを証明した。
この定理は、2つの重要な意味を持つ: (Ia) 巨大なニューラルネットワークは、学習力学を保ちながら多対数幅に圧縮できる; (Ib) 巨大なデータセットは、対応するモデルのロスランドスケープをそのまま残しながら、多対数サイズに圧縮できる。
(Ia) は、学習力学と結果が変わらないように、任意の通常のネットワークを強く圧縮できるという \textit{dynamical} lottery ticket hypothesis の証明を直接確立する。
(Ib) は、$L\sim d^{-\alpha}$ という形のニューラルスケーリング法則が任意の高速なパワーローの崩壊へと押し上げられ、最終的には$\exp(-\alpha' \sqrt[m]{d})$ となることを示した。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Exponentially improved efficient machine learning for quantum many-body states with provable guarantees [0.0]
量子多体状態とその性質をモデル非依存の応用で効率的に学習するための理論的保証を提供する。
本結果は,量子多体状態とその特性をモデル非依存の応用で効率的に学習するための理論的保証を提供する。
論文 参考訳(メタデータ) (2023-04-10T02:22:36Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - A Universal Law of Robustness via Isoperimetry [1.484852576248587]
スムースには単なるパラメータ以上の$d$が必要で、$d$は周囲のデータ次元である。
この普遍的なロバスト性則を、大きさの重みを持つ任意の滑らかなパラメトリケート関数クラスに対して証明する。
論文 参考訳(メタデータ) (2021-05-26T19:49:47Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Hybrid Stochastic-Deterministic Minibatch Proximal Gradient:
Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。
損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:18:44Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。