論文の概要: Training Transformers with Enforced Lipschitz Constants
- arxiv url: http://arxiv.org/abs/2507.13338v1
- Date: Thu, 17 Jul 2025 17:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.611777
- Title: Training Transformers with Enforced Lipschitz Constants
- Title(参考訳): リプシッツ定数の強化による変圧器の訓練
- Authors: Laker Newhouse, R. Preston Hess, Franz Cesista, Andrii Zahorodnii, Jeremy Bernstein, Phillip Isola,
- Abstract要約: トレーニングを通じて、リプシッツ境界でニューラルネットワークをトレーニングします。
我々は、AdamWからMuonへの切り替えが標準メソッドを改善していることに気付きました。
固定スペクトルノルムを持つMuonの更新にインスパイアされた我々は、リプシッツ対パフォーマンストレードオフを改善する重み制約法を共同設計する。
- 参考スコア(独自算出の注目度): 25.42378506132261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks are often highly sensitive to input and weight perturbations. This sensitivity has been linked to pathologies such as vulnerability to adversarial examples, divergent training, and overfitting. To combat these problems, past research has looked at building neural networks entirely from Lipschitz components. However, these techniques have not matured to the point where researchers have trained a modern architecture such as a transformer with a Lipschitz certificate enforced beyond initialization. To explore this gap, we begin by developing and benchmarking novel, computationally-efficient tools for maintaining norm-constrained weight matrices. Applying these tools, we are able to train transformer models with Lipschitz bounds enforced throughout training. We find that optimizer dynamics matter: switching from AdamW to Muon improves standard methods -- weight decay and spectral normalization -- allowing models to reach equal performance with a lower Lipschitz bound. Inspired by Muon's update having a fixed spectral norm, we co-design a weight constraint method that improves the Lipschitz vs. performance tradeoff on MLPs and 2M parameter transformers. Our 2-Lipschitz transformer on Shakespeare text reaches validation accuracy 60%. Scaling to 145M parameters, our 10-Lipschitz transformer reaches 21% accuracy on internet text. However, to match the NanoGPT baseline validation accuracy of 39.4%, our Lipschitz upper bound increases to 10^264. Nonetheless, our Lipschitz transformers train without stability measures such as layer norm, QK norm, and logit tanh softcapping.
- Abstract(参考訳): ニューラルネットワークはしばしば入力と重みの摂動に非常に敏感である。
この感度は、敵の例に対する脆弱性、発散訓練、過剰適合などの病理に関連付けられている。
これらの問題に対処するため、過去の研究では、Lipschitzコンポーネントから完全にニューラルネットワークを構築することを検討している。
しかしながら、これらの技術は、研究者が初期化を超えて実施されたリプシッツ証明書を持つトランスフォーマーのようなモダンなアーキテクチャを訓練した時点まで成熟していない。
このギャップを探索するために、標準制約の重み行列を維持するための新しい、計算効率の良いツールを開発し、ベンチマークすることから始める。
これらのツールを適用することで、トレーニングを通じてLipschitz境界でトランスフォーマーモデルをトレーニングすることが可能になります。
AdamW から Muon への切り替えは、標準手法、すなわち重量減衰とスペクトル正規化を改善し、モデルが低いリプシッツ境界で同等のパフォーマンスに達することを可能にする。
MLPと2Mパラメータ変換器のリプシッツ対性能トレードオフを改善するための重み制約法を共同設計する。
シェークスピアテキスト上の2-Lipschitz変換器は精度60%に達する。
1億4500万のパラメータにスケールすると、私たちの10-Lipschitz変換器はインターネットテキスト上で21%の精度に達します。
しかし,NanoGPTのベースライン検証精度を39.4%とすると,Lipschitz上界は10^264に増大する。
それでも、我々のリプシッツ変換器は、層ノルム、QKノルム、ロジット・タン・ソフトキャッピングのような安定度のない訓練を行う。
関連論文リスト
- LipShiFT: A Certifiably Robust Shift-based Vision Transformer [46.7028906678548]
リプシッツに基づくマージントレーニングは、モデルの連続層における重みを制限しながら、強い正則化器として機能する。
一般的な画像分類における$l$ノルムを用いて、このモデルのリプシッツ定数の上限推定を行う。
論文 参考訳(メタデータ) (2025-03-18T21:38:18Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Certified Robust Models with Slack Control and Large Lipschitz Constants [102.69689641398227]
本稿では,2つの問題に対処するCalibrated Lipschitz-Margin Loss (CLL)を提案する。
第一に、一般的に使用されるマージン損失は、縮小する出力分布に対する罰則を調整しない。
第二に、$K$の最小化は過度に滑らかな決定関数をもたらす。
我々のCLLは、損失w.r.t.マージンとリプシッツ定数を明示的に調整することでこれらの問題に対処する。
論文 参考訳(メタデータ) (2023-09-12T12:23:49Z) - LipsFormer: Introducing Lipschitz Continuity to Vision Transformers [15.568629066375971]
リプシッツ連続変換器(LipsFormer)を提案する。
実験の結果,LipsFormerは学習率調整を必要とせずに,深層トランスフォーマーアーキテクチャの安定したトレーニングを可能にすることがわかった。
CSwinをベースとしたLipsFormer-CSwin-Tinyは、300エポックのトレーニングで4.7GのFLOPと24Mのパラメータでトップ-1の精度が83.5%に達した。
論文 参考訳(メタデータ) (2023-04-19T17:59:39Z) - CertViT: Certified Robustness of Pre-Trained Vision Transformers [11.880271015435582]
Lipschitzのバウンドニューラルネットワークは、確実に堅牢であり、クリーンと認定の正確性の間に良いトレードオフがある。
既存のリプシッツ境界法は、スクラッチから訓練され、適度な大きさのネットワークに制限されている。
CertViTネットワークは、最先端のリプシッツ訓練ネットワークよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-02-01T06:09:19Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。