論文の概要: Information-Theoretic Perspectives on Optimizers
- arxiv url: http://arxiv.org/abs/2502.20763v1
- Date: Fri, 28 Feb 2025 06:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:18.066557
- Title: Information-Theoretic Perspectives on Optimizers
- Title(参考訳): 最適化者の情報理論的視点
- Authors: Zhiquan Tan, Weiran Huang,
- Abstract要約: 本稿では,従来のシャープネス尺度では複雑な相互作用を完全に説明できず,エントロピーギャップと呼ばれる情報理論の指標を導入し,分析に役立てることを見出した。
- 参考スコア(独自算出の注目度): 2.737335954474364
- License:
- Abstract: The interplay of optimizers and architectures in neural networks is complicated and hard to understand why some optimizers work better on some specific architectures. In this paper, we find that the traditionally used sharpness metric does not fully explain the intricate interplay and introduces information-theoretic metrics called entropy gap to better help analyze. It is found that both sharpness and entropy gap affect the performance, including the optimization dynamic and generalization. We further use information-theoretic tools to understand a recently proposed optimizer called Lion and find ways to improve it.
- Abstract(参考訳): ニューラルネットワークにおけるオプティマイザとアーキテクチャの相互作用は複雑で、一部のオプティマイザが特定のアーキテクチャでうまく動作する理由を理解するのは難しい。
本稿では,従来のシャープネス尺度では複雑な相互作用を完全に説明できず,エントロピーギャップと呼ばれる情報理論の指標を導入し,分析に役立てることを見出した。
シャープネスとエントロピーギャップの両方が最適化力学や一般化を含む性能に影響を及ぼすことがわかった。
情報理論ツールを使って、最近提案されたLionというオプティマイザを理解し、改善する方法を見つけます。
関連論文リスト
- CaAdam: Improving Adam optimizer using connection aware methods [0.0]
我々はAdamにインスパイアされた新しい手法を導入し、収束速度を高め、損失関数の最小化を実現する。
Adamを含む従来のプロキシは、アーキテクチャの詳細を考慮せずに、ニューラルネットワーク全体で均一またはグローバルに調整された学習率を適用している。
我々のアルゴリズムであるCaAdamは、アーキテクチャ情報を慎重に設計することで、接続対応の最適化を導入することで、見落としている領域を探索する。
論文 参考訳(メタデータ) (2024-10-31T17:59:46Z) - Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Investigation into the Training Dynamics of Learned Optimizers [0.0]
従来の手作りのアルゴリズムをメタ学習関数に置き換えることで、学習の概念を最適化プロセスを加速させる方法として検討する。
本研究は,ネットワークアーキテクチャの対称性と更新パラメータの観点から最適化について検討する。
私たちは、それぞれのアプローチが互いの強みからどのように恩恵を受けるかを示すいくつかの重要な洞察を特定します。
論文 参考訳(メタデータ) (2023-12-12T11:18:43Z) - Federated Multi-Level Optimization over Decentralized Networks [55.776919718214224]
エージェントが隣人としか通信できないネットワーク上での分散マルチレベル最適化の問題について検討する。
ネットワーク化されたエージェントが1つの時間スケールで異なるレベルの最適化問題を解くことができる新しいゴシップに基づく分散マルチレベル最適化アルゴリズムを提案する。
提案アルゴリズムは, ネットワークサイズと線形にスケーリングし, 各種アプリケーション上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-10T00:21:10Z) - Understanding Optimization of Deep Learning via Jacobian Matrix and
Lipschitz Constant [18.592094066642364]
本稿では,ディープラーニングにおける最適化の包括的理解について述べる。
モデル表現能力の低下とトレーニング不安定性の低下につながる勾配消滅と勾配爆発の課題に焦点をあてる。
現在の最適化手法を理解するために、明示的な最適化と暗黙的な最適化の2つのクラスに分類する。
論文 参考訳(メタデータ) (2023-06-15T17:59:27Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Learning to Optimize with Dynamic Mode Decomposition [0.0]
本稿では,動的モード分解法を用いて最適化力学に関する情報的特徴を抽出する方法を示す。
学習結果から,最適化問題を簡潔に解き明かすことにより,より一般化できることが示される。
論文 参考訳(メタデータ) (2022-11-29T14:55:59Z) - An Interactive Knowledge-based Multi-objective Evolutionary Algorithm
Framework for Practical Optimization Problems [5.387300498478744]
本稿では,対話型知識に基づく進化的多目的最適化(IK-EMO)フレームワークを提案する。
ハイパフォーマンスなソリューションの進化から知識として隠れた変数関係を抽出し、フィードバックを受け取るためにユーザと共有し、その効率を改善するために最適化プロセスに適用する。
提案したIK-EMOの動作は、3つの大規模な実世界のエンジニアリング設計問題で実証されている。
論文 参考訳(メタデータ) (2022-09-18T16:51:01Z) - Meta Mirror Descent: Optimiser Learning for Fast Convergence [85.98034682899855]
我々は、勾配降下ではなくミラー降下から始まり、対応するブレグマン発散をメタラーニングする。
このパラダイム内では、後悔の限界を最小化するための新しいメタ学習目標を定式化する。
多くのメタ学習オプティマイザとは異なり、収束と一般化の保証もサポートしており、検証データを必要としない。
論文 参考訳(メタデータ) (2022-03-05T11:41:13Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。