論文の概要: Modular Duality in Deep Learning
- arxiv url: http://arxiv.org/abs/2410.21265v1
- Date: Mon, 28 Oct 2024 17:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:55.851373
- Title: Modular Duality in Deep Learning
- Title(参考訳): 深層学習におけるモジュール的双対性
- Authors: Jeremy Bernstein, Laker Newhouse,
- Abstract要約: 汎用ニューラルネットワークのための双対写像を構築する。
私たちの地図は、a)高速かつb)スケーラブルなトレーニングアルゴリズムの統一理論的基盤を形成します。
我々のイテレーションは、NanoGPTのトレーニングに新しいスピードレコードを設定するために最近使われました。
- 参考スコア(独自算出の注目度): 3.471637998699967
- License:
- Abstract: An old idea in optimization theory says that since the gradient is a dual vector it may not be subtracted from the weights without first being mapped to the primal space where the weights reside. We take this idea seriously in this paper and construct such a duality map for general neural networks. Our map, which we call modular dualization, forms a unifying theoretical basis for training algorithms that are a) fast and b) scalable. Modular dualization involves first assigning operator norms to layers based on the semantics of each layer, and then using these layerwise norms to recursively induce a duality map on the weight space of the full neural architecture. We conclude by deriving GPU-friendly algorithms for dualizing Embed, Linear and Conv2D layers -- the latter two methods are based on a new rectangular Newton-Schulz iteration that we propose. Our iteration was recently used to set new speed records for training NanoGPT. Overall, we hope that our theory of modular duality will yield a next generation of fast and scalable optimizers for general neural architectures.
- Abstract(参考訳): 最適化理論の古い考え方は、勾配が双対ベクトルであるため、最初に重みが存在する原始空間に写像されない限り、重みから減じることはできない、というものである。
本稿では、このアイデアを真に捉え、一般ニューラルネットワークのための双対写像を構築する。
モジュラー双対化(modular dualization)と呼ばれる我々の地図は、訓練アルゴリズムの統一理論基盤を形成する。
a (複数形 as)
b)スケーラブル。
モジュラー双対化は、まず各レイヤのセマンティクスに基づいて演算子ノルムをレイヤに割り当て、次にこれらレイヤワイズノルムを使用して、完全なニューラルネットワークアーキテクチャの重み空間上の双対写像を再帰的に誘導する。
我々は、Embed、Linear、Conv2Dの2層を二元化するGPUフレンドリーなアルゴリズムを導出した。
我々のイテレーションは、NanoGPTのトレーニングに新しいスピードレコードを設定するために最近使われました。
全体として、モジュラー双対性の理論は、一般的なニューラルアーキテクチャのために、次世代の高速でスケーラブルなオプティマイザを生み出すことを願っている。
関連論文リスト
- Old Optimizer, New Norm: An Anthology [3.471637998699967]
それぞれの手法は、凸性の仮定を伴わない正方形の一階法として理解することができると論じる。
この観察を一般化することにより、トレーニングアルゴリズムのための新しいデザインスペースをグラフ化する。
ニューラルネットワークを慎重に成熟させるというこのアイデアが、より安定し、スケーラブルで、実際に高速なトレーニングにつながることを期待しています。
論文 参考訳(メタデータ) (2024-09-30T14:26:12Z) - A foundation for exact binarized morphological neural networks [2.8925699537310137]
ディープニューラルネットワーク(NN)のトレーニングと実行は、多くの計算とエネルギー集約的な特別なハードウェアを必要とすることが多い。
計算量と消費電力を減らす方法の1つは二重NNを使うことであるが、これは符号関数が非滑らかな勾配を持つため訓練が困難である。
本研究では,特定の条件下での性能を損なうことなく,ConvNetを二項化できる数学的形態(MM)に基づくモデルを提案する。
論文 参考訳(メタデータ) (2024-01-08T11:37:44Z) - Automatic Optimisation of Normalised Neural Networks [1.0334138809056097]
ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。
我々の手法はまずネットワークを初期化し、初期化ネットワークの$ell2$-$ell2$ゲインに関してデータを正規化する。
論文 参考訳(メタデータ) (2023-12-17T10:13:42Z) - Automatic Gradient Descent: Deep Learning without Hyperparameters [35.350274248478804]
ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
論文 参考訳(メタデータ) (2023-04-11T12:45:52Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:06:11Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - On Second Order Behaviour in Augmented Neural ODEs [69.8070643951126]
第二次ニューラルノード(ソノド)を考える
副次感度法がSONODEにどのように拡張できるかを示す。
我々は拡張NODE(Augmented NODEs)のより広範なクラスの理論的理解を拡張した。
論文 参考訳(メタデータ) (2020-06-12T14:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。