論文の概要: Hallmarks of Optimization Trajectories in Neural Networks and LLMs: The
Lengths, Bends, and Dead Ends
- arxiv url: http://arxiv.org/abs/2403.07379v1
- Date: Tue, 12 Mar 2024 07:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:33:13.143597
- Title: Hallmarks of Optimization Trajectories in Neural Networks and LLMs: The
Lengths, Bends, and Dead Ends
- Title(参考訳): ニューラルネットワークとLLMにおける最適化軌道の目印:長さ,曲がり,デッドエンド
- Authors: Sidak Pal Singh, Bobby He, Thomas Hofmann, Bernhard Sch\"olkopf
- Abstract要約: 最適化軌道に含まれるパラメータの豊富な構造を解析することにより,ニューラルネットワークのメカニズムを理解することを提案する。
深層ニューラルネットワークにおける最適化の性質に関する重要な指標を提供するために、それらを使用します。
最大120億のパラメータを持つ大規模言語モデルを含む,大規模ビジョンと言語設定に関する実験を行う。
- 参考スコア(独自算出の注目度): 44.15248457530135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a fresh take on understanding the mechanisms of neural networks by
analyzing the rich structure of parameters contained within their optimization
trajectories. Towards this end, we introduce some natural notions of the
complexity of optimization trajectories, both qualitative and quantitative,
which reveal the inherent nuance and interplay involved between various
optimization choices, such as momentum, weight decay, and batch size. We use
them to provide key hallmarks about the nature of optimization in deep neural
networks: when it goes right, and when it finds itself in a dead end. Further,
thanks to our trajectory perspective, we uncover an intertwined behaviour of
momentum and weight decay that promotes directional exploration, as well as a
directional regularization behaviour of some others. We perform experiments
over large-scale vision and language settings, including large language models
(LLMs) with up to 12 billion parameters, to demonstrate the value of our
approach.
- Abstract(参考訳): 最適化軌道に含まれるパラメータの豊富な構造を解析することにより,ニューラルネットワークのメカニズムを理解することを提案する。
この目的に向けて,量的および定量的な最適化トラジェクタの複雑さに関する自然概念を導入し,運動量,重みの減衰,バッチサイズといった様々な最適化選択に固有のニュアンスと相互作用を明らかにする。
私たちは、ディープニューラルネットワークの最適化の性質に関する重要な論点を提供するためにそれらを使用します。
さらに、軌道の観点により、方向探索を促進する運動量と重量減少の相互に絡み合った挙動と、他のいくつかの方向正規化行動を明らかにする。
我々は,最大120億のパラメータを持つ大規模言語モデル(LLM)を含む,大規模ビジョンと言語設定に関する実験を行い,アプローチの価値を実証した。
関連論文リスト
- Dynamically configured physics-informed neural network in topology
optimization applications [4.403140515138818]
物理インフォームドニューラルネットワーク(PINN)は、前方問題を解決する際に大量のデータを生成するのを避けることができる。
動的に構成された PINN-based Topology Optimization (DCPINN-TO) 法を提案する。
変位予測と最適化結果の精度は,DCPINN-TO法が効率的かつ効率的であることを示している。
論文 参考訳(メタデータ) (2023-12-12T05:35:30Z) - Augmented Random Search for Multi-Objective Bayesian Optimization of
Neural Networks [1.4050836886292872]
ディープニューラルネットワーク(DNN)の圧縮に多目的最適化アプローチを用いることができる
本稿では,RL(Augmented Random Search Reinforcement Learning)エージェントを用いて学習した,競合するパラメトリックポリシーのアンサンブルに基づく新しい解法を提案する。
提案手法は, DNNの予測精度, 所定のターゲットシステムにおけるメモリ消費量, 計算複雑性の相違点を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - On Equivalent Optimization of Machine Learning Methods [1.9573380763700712]
学習速度,バッチサイズ,層幅,データセット,アクティベーション関数の選択が,トレーニング中のネットワークパラメータの等価あるいは等価な進化につながる場合の一般的な特徴を示す。
その結果, バッチサイズ比, 層幅, データセットの性質(手書きと合成) およびアクティベーション関数が共役性に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - On the Intrinsic Structures of Spiking Neural Networks [66.57589494713515]
近年、時間依存データやイベント駆動データを扱う大きな可能性から、SNNへの関心が高まっている。
スパイキング計算における本質的な構造の影響を総合的に調査する研究が数多く行われている。
この研究はSNNの本質的な構造を深く掘り下げ、SNNの表現性への影響を解明する。
論文 参考訳(メタデータ) (2022-06-21T09:42:30Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Improving Parametric Neural Networks for High-Energy Physics (and
Beyond) [0.0]
本研究の目的は,現実世界の使用状況に照らして,パラメトリックニューラルネットワーク(pNN)ネットワークの理解を深めることである。
本稿では,新しいパラメータ化ニューラルネットワークアーキテクチャであるAffinePNNを提案する。
我々は、その不均衡バージョン(HEPMASS-IMB)に沿って、HEPMASSデータセット上で、我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-02-01T14:18:43Z) - Persistent Neurons [4.061135251278187]
本稿では,学習課題を最適化するトラジェクトリベースの戦略を提案する。
永続ニューロンは、決定論的誤差項によって個々の更新が破損する勾配情報バイアスを持つ方法とみなすことができる。
完全かつ部分的なパーシステンスモデルの評価を行い、NN構造における性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-07-02T22:36:49Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。