論文の概要: Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets
- arxiv url: http://arxiv.org/abs/2405.17573v1
- Date: Mon, 27 May 2024 18:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:31:09.189908
- Title: Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets
- Title(参考訳): Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets
- Authors: Arthur Jacot, Alexandre Kaiser,
- Abstract要約: 我々は、ResNets(tildeLtoinfty$)とFully-Connected nets(tildeLtoinfty$)の間を補間するLeaky ResNetsを研究する。
無限深度極限において、'representation geodesics'の$A_p$:continuous paths in representation space(NeuralODEsに類似)を研究する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
- 参考スコア(独自算出の注目度): 58.460298576330835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study Leaky ResNets, which interpolate between ResNets ($\tilde{L}=0$) and Fully-Connected nets ($\tilde{L}\to\infty$) depending on an 'effective depth' hyper-parameter $\tilde{L}$. In the infinite depth limit, we study 'representation geodesics' $A_{p}$: continuous paths in representation space (similar to NeuralODEs) from input $p=0$ to output $p=1$ that minimize the parameter norm of the network. We give a Lagrangian and Hamiltonian reformulation, which highlight the importance of two terms: a kinetic energy which favors small layer derivatives $\partial_{p}A_{p}$ and a potential energy that favors low-dimensional representations, as measured by the 'Cost of Identity'. The balance between these two forces offers an intuitive understanding of feature learning in ResNets. We leverage this intuition to explain the emergence of a bottleneck structure, as observed in previous work: for large $\tilde{L}$ the potential energy dominates and leads to a separation of timescales, where the representation jumps rapidly from the high dimensional inputs to a low-dimensional representation, move slowly inside the space of low-dimensional representations, before jumping back to the potentially high-dimensional outputs. Inspired by this phenomenon, we train with an adaptive layer step-size to adapt to the separation of timescales.
- Abstract(参考訳): ResNets$\tilde{L}=0$) と Fully-Connected nets$\tilde{L}\to\infty$) を '有効な深さ' ハイパーパラメータ$\tilde{L}$ で補間する Leaky ResNets について検討する。
無限深度極限において、入力$p=0$から出力$p=1$までの表現空間における連続パスをネットワークのパラメータノルムを最小化する'representation geodesics'$A_{p}$の研究を行う。
ラグランジアンとハミルトンの改革は、小さな層微分を好む運動エネルギー$\partial_{p}A_{p}$と、低次元表現を好むポテンシャルエネルギーの2つの項の重要性を強調している。
これら2つの力のバランスは、ResNetsにおける機能学習の直感的な理解を提供する。
より大きな$\tilde{L}$ ポテンシャルエネルギーが支配的であり、時間スケールの分離につながるため、高次元の入力から低次元の表現へと表現が急速にジャンプし、低次元の表現空間内をゆっくりと移動し、潜在的に高次元の出力へと戻る。
この現象にインスパイアされた私たちは、時間スケールの分離に適応するために、段階的なレイヤーでトレーニングします。
関連論文リスト
- Mathematical Models of Computation in Superposition [0.9374652839580183]
重ね合わせは、現在のAIシステムを機械的に解釈する上で深刻な課題となる。
重ね合わせにおけるエンフン計算の数学的モデルを提案し, 重ね合わせはタスクを効率的に遂行するのに有効である。
我々は、重ね合わせで計算を実装するニューラルネットワークを解釈する研究の潜在的な応用について、結論付けている。
論文 参考訳(メタデータ) (2024-08-10T06:11:48Z) - "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Capacity Bounds for Hyperbolic Neural Network Representations of Latent
Tree Structures [8.28720658988688]
本稿では,ReLUアクティベーション機能を持つHNN(Deep Hyperbolic Neural Network)の表現能力について検討する。
HNN が任意の有限重み付き木を少なくとも 2$ に等しい次元の双曲空間に埋め込むことができるという最初の証明を確立する。
グラフ表現を実装するHNNのネットワーク複雑性は,表現の忠実さ/歪みとは無関係であることがわかった。
論文 参考訳(メタデータ) (2023-08-18T02:24:32Z) - Polynomial Width is Sufficient for Set Representation with
High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。
a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文 参考訳(メタデータ) (2023-07-08T16:00:59Z) - The extended star graph as a light-harvesting-complex prototype:
excitonic absorption speedup by peripheral energy defect tuning [0.0]
拡張された恒星ネットワークの周囲に均一に分布する光励起の量子力学について検討する。
このスピードアップの起源は、2つの上バンド励起固有状態のハイブリダイゼーションにあることを示す。
論文 参考訳(メタデータ) (2022-10-14T21:21:07Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - On the Banach spaces associated with multi-layer ReLU networks: Function
representation, approximation theory and gradient descent dynamics [8.160343645537106]
有限深さ$L$および無限幅のReLUニューラルネットワークに対するバナッハ空間を開発する。
空間はすべての有限完全連結な$L$-層ネットワークと、それらの$L2$-極限オブジェクトを自然経路ノルムの下に含む。
このノルムの下では、$L$層ネットワークの空間内の単位球は、ラデマッハの複雑さが低く、したがって好ましい性質を持つ。
論文 参考訳(メタデータ) (2020-07-30T17:47:05Z) - Better Depth-Width Trade-offs for Neural Networks through the lens of
Dynamical Systems [24.229336600210015]
近年, 動的システムとの新たな接続により, ReLU ネットワークの深度分離結果を得た。
既存の幅の低い境界を、いくつかの面で改善する。
我々の結果の副産物は、深さ幅のトレードオフを特徴づける普遍定数が存在することである。
論文 参考訳(メタデータ) (2020-03-02T11:36:26Z) - Anisotropy-mediated reentrant localization [62.997667081978825]
2次元双極子系、$d=2$、一般化双極子-双極子相互作用$sim r-a$、トラップイオン系やリドバーグ原子系で実験的に制御されたパワー$a$を考える。
異方性双極子交換を引き起こす双極子の空間的に均質な傾き$$beta$は、ロケータ展開を超えた非自明な再帰的局在をもたらすことを示す。
論文 参考訳(メタデータ) (2020-01-31T19:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。