論文の概要: Robust Training of Neural Networks at Arbitrary Precision and Sparsity
- arxiv url: http://arxiv.org/abs/2409.09245v2
- Date: Wed, 24 Sep 2025 02:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.45645
- Title: Robust Training of Neural Networks at Arbitrary Precision and Sparsity
- Title(参考訳): 任意精度と空間性を考慮したニューラルネットワークのロバストトレーニング
- Authors: Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard,
- Abstract要約: 本稿では,原理的リッジ回帰目標から導かれるデノナイジング・デクエント化変換を導入する。
我々は、この原理を、重要でない値を0にマッピングする特別な量子化の形式として見ることにより、スパーシフィケーションに拡張する。
このアプローチは最先端の結果をもたらし、理論上は高効率ニューラルネットワークへの経路を提供する。
- 参考スコア(独自算出の注目度): 15.121043556313689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discontinuous operations inherent in quantization and sparsification introduce a long-standing obstacle to backpropagation, particularly in ultra-low precision and sparse regimes. The standard Straight-Through Estimator (STE) is widely used to address this, but the well-understood mismatch between its quantization-aware forward pass and quantization-oblivious backward pass leads to unmanaged error that can corrupt the learning process. We solve this by introducing a denoising dequantization transform derived from a principled ridge regression objective. This transform makes the entire learning process aware of and robust to the quantization error that STE's surrogate gradient bypasses, by creating an explicit, corrective gradient path. We extend this principle to sparsification by viewing it as a special form of quantization that maps insignificant values to zero. Our unified framework allows existing models to be trained at a wide spectrum of precisions and sparsity levels with off-the-shelf recipes, achieving stable training of fully binary (A1W1) and sparse sub-1-bit networks where other methods falter. This approach yields state-of-the-art results and provides a theoretically-grounded path to hyper-efficient neural networks.
- Abstract(参考訳): 量子化とスパーシフィケーションに固有の不連続な操作は、特に超高精度でスパースな状態において、バックプロパゲーションに長期間の障害をもたらす。
標準的なSTE(Straight-Through Estimator)は、この問題を解決するために広く使われているが、量子化対応の前方通過と量子化対応の後方通過とのよく理解されていないミスマッチは、学習プロセスの破損につながる。
我々は、原理化されたリッジ回帰目標から導かれるデノナイズデ量子化変換を導入することで、この問題を解決する。
この変換により、学習プロセス全体が、STEの代理勾配がバイパスする量子化誤差を認識し、堅牢になる。
我々は、この原理を、重要でない値を0にマッピングする特別な量子化の形式として見ることにより、スパーシフィケーションに拡張する。
我々の統合されたフレームワークは、既存のモデルを市販のレシピで幅広い精度と空間レベルでトレーニングすることができ、他の手法がフェールする完全バイナリ(A1W1)とスパースサブ-1ビットネットワークの安定したトレーニングを実現する。
このアプローチは最先端の結果をもたらし、理論上は高効率ニューラルネットワークへの経路を提供する。
関連論文リスト
- Certified Neural Approximations of Nonlinear Dynamics [52.79163248326912]
安全クリティカルな文脈では、神経近似の使用は、基礎となるシステムとの密接性に公式な境界を必要とする。
本稿では,認証された一階述語モデルに基づく新しい,適応的で並列化可能な検証手法を提案する。
論文 参考訳(メタデータ) (2025-05-21T13:22:20Z) - Adaptive Class Emergence Training: Enhancing Neural Network Stability and Generalization through Progressive Target Evolution [0.0]
分類問題におけるニューラルネットワークの新しいトレーニング手法を提案する。
我々は、トレーニングプロセスを通して、ヌルベクトルから1ホットの符号化ベクターへのターゲット出力を進化させる。
この段階的な遷移により、ネットワークは分類タスクの複雑さの増大によりスムーズに適応できる。
論文 参考訳(メタデータ) (2024-09-04T03:25:48Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - To be or not to be stable, that is the question: understanding neural
networks for inverse problems [0.0]
本稿では,ニューラルネットワークの安定性と精度のトレードオフを理論的に解析する。
ネットワークの安定性を高め、良好な精度を維持するために、異なる教師付きおよび教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-24T16:16:40Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Better Training using Weight-Constrained Stochastic Dynamics [0.0]
我々は、トレーニングを通してディープニューラルネットワークのパラメータ空間を制御するために制約を用いる。
カスタマイズされた適切な設計の制約を使用することで、消滅/展開の問題を減らすことができる。
グラデーションランゲヴィンフレームワークに制約を効率的に組み込むための一般的なアプローチを提供する。
論文 参考訳(メタデータ) (2021-06-20T14:41:06Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Constraint-Based Regularization of Neural Networks [0.0]
本稿では,ニューラルネットワークの学習のためのグラデーション・ランゲヴィン・フレームワークに制約を効率的に組み込む手法を提案する。
適切に設計され、消滅/爆発する勾配問題を減らし、重みを制御し、ディープニューラルネットワークを安定化する。
論文 参考訳(メタデータ) (2020-06-17T19:28:41Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Frosting Weights for Better Continual Training [22.554993259239307]
ニューラルネットワークモデルをトレーニングすることは、生涯にわたる学習プロセスであり、計算集約的なプロセスである。
ディープニューラルネットワークモデルは、新しいデータの再トレーニング中に破滅的な忘れに悩まされる可能性がある。
そこで我々は,この問題を解決するために,勾配向上とメタラーニングという2つの一般的なアンサンブルアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-07T00:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。