論文の概要: Steering Deep Feature Learning with Backward Aligned Feature Updates
- arxiv url: http://arxiv.org/abs/2311.18718v1
- Date: Thu, 30 Nov 2023 17:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:48:58.097461
- Title: Steering Deep Feature Learning with Backward Aligned Feature Updates
- Title(参考訳): 後方対応機能アップデートによるDeep Feature Learningのステアリング
- Authors: L\'ena\"ic Chizat and Praneeth Netrapalli
- Abstract要約: 特徴学習を予測,測定,制御するための重要な概念として,機能更新と後方パスの整合性を提案する。
広帯域領域におけるReLUとResNetについて検討する。
- 参考スコア(独自算出の注目度): 28.23939405085225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning succeeds by doing hierarchical feature learning, yet tuning
Hyper-Parameters (HP) such as initialization scales, learning rates etc., only
give indirect control over this behavior. In this paper, we propose the
alignment between the feature updates and the backward pass as a key notion to
predict, measure and control feature learning. On the one hand, we show that
when alignment holds, the magnitude of feature updates after one SGD step is
related to the magnitude of the forward and backward passes by a simple and
general formula. This leads to techniques to automatically adjust HPs
(initialization scales and learning rates) at initialization and throughout
training to attain a desired feature learning behavior. On the other hand, we
show that, at random initialization, this alignment is determined by the
spectrum of a certain kernel, and that well-conditioned layer-to-layer
Jacobians (aka dynamical isometry) implies alignment. Finally, we investigate
ReLU MLPs and ResNets in the large width-then-depth limit. Combining hints from
random matrix theory and numerical experiments, we show that (i) in MLP with
iid initializations, alignment degenerates with depth, making it impossible to
start training, and that (ii) in ResNets, the branch scale
$1/\sqrt{\text{depth}}$ is the only one maintaining non-trivial alignment at
infinite depth.
- Abstract(参考訳): ディープラーニングは階層的な特徴学習によって成功するが、初期化スケールや学習率などのハイパーパラメータ(HP)を調整することで、この振る舞いを間接的に制御できる。
本稿では,特徴の学習を予測,測定,制御するための重要な概念として,特徴更新と後方パスの整合性を提案する。
一方,アライメントが成立すると,一つのsgdステップ後の特徴更新の大きさは,単純で一般的な公式による前方および後方通過の大きさと関係していることが示された。
これにより、初期化とトレーニングを通じてhps(初期化スケールと学習率)を自動的に調整し、望ましい特徴学習行動を達成する技術が生まれる。
一方、ランダム初期化では、このアライメントはある核のスペクトルによって決定され、よく条件付けられた層対層ジャコビアン(動的等長法)はアライメントを意味する。
最後に,relu mlpsとresnetsを広幅・奥行き限界で検討する。
ランダム行列理論と数値実験のヒントを組み合わせることで
i) iid初期化を伴うMDPでは、アライメントは深度で縮退し、トレーニングの開始が不可能となる。
(ii) ResNets では、分岐スケール $1/\sqrt{\text{depth}}$ は無限の深さで非自明なアライメントを維持する唯一のものである。
関連論文リスト
- Automated Sizing and Training of Efficient Deep Autoencoders using
Second Order Algorithms [0.46040036610482665]
一般化線形分類器の多段階学習法を提案する。
検証エラーは不要な入力のプルーニングによって最小化される。
所望の出力は、Ho-Kashyapルールに似た方法で改善される。
論文 参考訳(メタデータ) (2023-08-11T16:48:31Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。
提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-04-04T16:38:55Z) - Deep Q-learning: a robust control approach [4.125187280299247]
ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-01-21T09:47:34Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Overcoming Catastrophic Forgetting via Direction-Constrained
Optimization [43.53836230865248]
連続的な学習フレームワークにおいて,分類ネットワークの固定アーキテクチャを用いてディープラーニングモデルを学習するための最適化アルゴリズムの新たな設計について検討する。
本稿では,方向制約付き最適化(DCO)法について述べる。各タスクに対して,対応する最上向きの主方向を近似する線形オートエンコーダを導入する。
我々のアルゴリズムは、他の最先端の正規化に基づく連続学習法と比較して好適に機能することを示した。
論文 参考訳(メタデータ) (2020-11-25T08:45:21Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Unsupervised Learning of 3D Point Set Registration [15.900382629390297]
点雲登録は、幾何変換を探索することで一対の点集合を整列する過程である。
本稿では,新たに導入された深部空間相関表現(SCR)機能に基づく,新しい教師なし登録フレームワークであるDeep-3DAlignerを提案する。
提案手法は,まずランダムに遅延するSCR特徴量を最適化し,次に幾何変換に復号し,ソースとターゲットの点集合を整列させる。
論文 参考訳(メタデータ) (2020-06-11T05:21:38Z) - Intra Order-preserving Functions for Calibration of Multi-Class Neural
Networks [54.23874144090228]
一般的なアプローチは、元のネットワークの出力をキャリブレーションされた信頼スコアに変換する、ポストホックキャリブレーション関数を学ぶことである。
以前のポストホックキャリブレーション技術は単純なキャリブレーション機能でしか機能しない。
本稿では,順序保存関数のクラスを表すニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-15T12:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。