論文の概要: Hallmarks of Optimization Trajectories in Neural Networks and LLMs: The
Lengths, Bends, and Dead Ends
- arxiv url: http://arxiv.org/abs/2403.07379v1
- Date: Tue, 12 Mar 2024 07:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:33:13.143597
- Title: Hallmarks of Optimization Trajectories in Neural Networks and LLMs: The
Lengths, Bends, and Dead Ends
- Title(参考訳): ニューラルネットワークとLLMにおける最適化軌道の目印:長さ,曲がり,デッドエンド
- Authors: Sidak Pal Singh, Bobby He, Thomas Hofmann, Bernhard Sch\"olkopf
- Abstract要約: 最適化軌道に含まれるパラメータの豊富な構造を解析することにより,ニューラルネットワークのメカニズムを理解することを提案する。
深層ニューラルネットワークにおける最適化の性質に関する重要な指標を提供するために、それらを使用します。
最大120億のパラメータを持つ大規模言語モデルを含む,大規模ビジョンと言語設定に関する実験を行う。
- 参考スコア(独自算出の注目度): 44.15248457530135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a fresh take on understanding the mechanisms of neural networks by
analyzing the rich structure of parameters contained within their optimization
trajectories. Towards this end, we introduce some natural notions of the
complexity of optimization trajectories, both qualitative and quantitative,
which reveal the inherent nuance and interplay involved between various
optimization choices, such as momentum, weight decay, and batch size. We use
them to provide key hallmarks about the nature of optimization in deep neural
networks: when it goes right, and when it finds itself in a dead end. Further,
thanks to our trajectory perspective, we uncover an intertwined behaviour of
momentum and weight decay that promotes directional exploration, as well as a
directional regularization behaviour of some others. We perform experiments
over large-scale vision and language settings, including large language models
(LLMs) with up to 12 billion parameters, to demonstrate the value of our
approach.
- Abstract(参考訳): 最適化軌道に含まれるパラメータの豊富な構造を解析することにより,ニューラルネットワークのメカニズムを理解することを提案する。
この目的に向けて,量的および定量的な最適化トラジェクタの複雑さに関する自然概念を導入し,運動量,重みの減衰,バッチサイズといった様々な最適化選択に固有のニュアンスと相互作用を明らかにする。
私たちは、ディープニューラルネットワークの最適化の性質に関する重要な論点を提供するためにそれらを使用します。
さらに、軌道の観点により、方向探索を促進する運動量と重量減少の相互に絡み合った挙動と、他のいくつかの方向正規化行動を明らかにする。
我々は,最大120億のパラメータを持つ大規模言語モデル(LLM)を含む,大規模ビジョンと言語設定に関する実験を行い,アプローチの価値を実証した。
関連論文リスト
- An Adaptive Tangent Feature Perspective of Neural Networks [4.900298402690262]
特徴量の線形変換を考察し、パラメータと双線型制約による変換を共同で最適化する。
ニューラルネットワークの構造に特化して、機能がどのように変化し、カーネル関数が変化するかについての洞察を得る。
実ニューラルネットワークのカーネルアライメントにおける理論的観察を検証する。
論文 参考訳(メタデータ) (2023-08-29T17:57:20Z) - Neural Characteristic Activation Analysis and Geometric Parameterization for ReLU Networks [2.2713084727838115]
本稿では,個々のニューロンの特徴的活性化境界を調べることによって,ReLUネットワークのトレーニングダイナミクスを解析するための新しいアプローチを提案する。
提案手法は,コンバージェンス最適化におけるニューラルネットワークのパラメータ化と正規化において重要な不安定性を示し,高速収束を阻害し,性能を損なう。
論文 参考訳(メタデータ) (2023-05-25T10:19:13Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes [3.808063547958558]
本研究では、固定ELRを用いて、球面上でのスケール不変ニューラルネットワークのトレーニング特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
論文 参考訳(メタデータ) (2022-09-08T10:30:05Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。