論文の概要: Unlocking the Theory Behind Scaling 1-Bit Neural Networks
- arxiv url: http://arxiv.org/abs/2411.01663v1
- Date: Sun, 03 Nov 2024 19:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:22.214304
- Title: Unlocking the Theory Behind Scaling 1-Bit Neural Networks
- Title(参考訳): 1ビットニューラルネットワークのスケーリングの背後にある理論を解き明かす
- Authors: Majid Daliri, Zhao Song, Chiwun Yang,
- Abstract要約: 1ビットのLarge Language Models (LLM)が登場し、従来のLLMに匹敵する効率とパフォーマンスの素晴らしい組み合わせを示している。
1ビットニューラルネットワークのスケーリング法則を厳格に確立した最初の理論的結果を示す。
この結果から,Int1が今後,ニューラルネットワークの精度の基準となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 7.578147116161996
- License:
- Abstract: Recently, 1-bit Large Language Models (LLMs) have emerged, showcasing an impressive combination of efficiency and performance that rivals traditional LLMs. Research by Wang et al. (2023); Ma et al. (2024) indicates that the performance of these 1-bit LLMs progressively improves as the number of parameters increases, hinting at the potential existence of a Scaling Law for 1-bit Neural Networks. In this paper, we present the first theoretical result that rigorously establishes this scaling law for 1-bit models. We prove that, despite the constraint of weights restricted to $\{-1, +1\}$, the dynamics of model training inevitably align with kernel behavior as the network width grows. This theoretical breakthrough guarantees convergence of the 1-bit model to an arbitrarily small loss as width increases. Furthermore, we introduce the concept of the generalization difference, defined as the gap between the outputs of 1-bit networks and their full-precision counterparts, and demonstrate that this difference maintains a negligible level as network width scales. Building on the work of Kaplan et al. (2020), we conclude by examining how the training loss scales as a power-law function of the model size, dataset size, and computational resources utilized for training. Our findings underscore the promising potential of scaling 1-bit neural networks, suggesting that int1 could become the standard in future neural network precision.
- Abstract(参考訳): 最近1ビットのLarge Language Models (LLM) が登場し、従来のLLMに匹敵する効率と性能の素晴らしい組み合わせを示している。
Wang et al (2023), Ma et al (2024) による研究によると、これらの1ビットLLMの性能はパラメータの数が増えるにつれて徐々に向上し、1ビットニューラルネットワークのスケーリング法則の存在が示唆される。
本稿では,1ビットモデルに対するこのスケーリング則を厳格に確立する最初の理論的結果を示す。
重みの制約が$\{-1, +1\}$に制限されているにもかかわらず、モデルトレーニングのダイナミクスはネットワーク幅が大きくなるにつれて必然的にカーネルの挙動と一致することを証明している。
この理論的なブレークスルーは、幅が増加するにつれて1ビットモデルの任意の小さな損失への収束を保証する。
さらに,1ビットネットワークの出力と完全精度の差分として定義される一般化差の概念を導入し,ネットワーク幅のスケールとして無視できるレベルを維持していることを示す。
Kaplan et al (2020) の業績に基づいて、トレーニングの損失がモデルサイズ、データセットサイズ、およびトレーニングに使用される計算資源のゆるい関数としてどのようにスケールするかを検討する。
この結果から,Int1が今後,ニューラルネットワークの精度の基準となる可能性が示唆された。
関連論文リスト
- Unified Neural Network Scaling Laws and Scale-time Equivalence [10.918504301310753]
本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。
まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。
次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
論文 参考訳(メタデータ) (2024-09-09T16:45:26Z) - Neural Scaling Laws From Large-N Field Theory: Solvable Model Beyond the Ridgeless Limit [0.0]
我々は、Maloney, Roberts, Sully によって提案されたモデルを解くために、大N場の理論手法を用いる。
モデルとトレーニングデータセットのサイズの対称性を説明するダイアグラムレベルでの双対変換を明らかにする。
論文 参考訳(メタデータ) (2024-05-29T18:00:01Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Outlier-Robust Neural Network Training: Efficient Optimization of Transformed Trimmed Loss with Variation Regularization [2.5628953713168685]
本稿では,高表現性ニューラルネットワークを用いた外乱予測モデルについて考察する。
本稿では,(1)古典的トリム化損失の計算可能な変種である変換トリム化損失(TTL)と,(2)予測モデルの高次変分正規化(HOVR)を用いる。
論文 参考訳(メタデータ) (2023-08-04T12:57:13Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Distribution-sensitive Information Retention for Accurate Binary Neural
Network [49.971345958676196]
本稿では、前向きのアクティベーションと後向きの勾配の情報を保持するために、新しいDIR-Net(Distribution-sensitive Information Retention Network)を提案する。
我々のDIR-Netは、主流かつコンパクトなアーキテクチャの下で、SOTAバイナライゼーションアプローチよりも一貫して優れています。
我々は、実世界のリソース制限されたデバイス上でDIR-Netを行い、ストレージの11.1倍の節約と5.4倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2021-09-25T10:59:39Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。