論文の概要: Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization
- arxiv url: http://arxiv.org/abs/2406.14095v1
- Date: Thu, 20 Jun 2024 08:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:50:31.107913
- Title: Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization
- Title(参考訳): 大規模二段階最適化のためのメモリ効率の良いグラディエントアンローリング
- Authors: Qianli Shen, Yezhen Wang, Zhouhao Yang, Xiang Li, Haonan Wang, Yang Zhang, Jonathan Scarlett, Zhanxing Zhu, Kenji Kawaguchi,
- Abstract要約: 従来の勾配に基づく二段階最適化アルゴリズムは、大規模アプリケーションの要求を満たすには不適である。
両レベル最適化のためのメタ勾配の偏りのない近似を実現するための$(textFG)2textU$を導入する。
$(textFG)2textU$は本質的に並列コンピューティングをサポートするように設計されており、大規模分散コンピューティングシステムを効果的に活用することができる。
- 参考スコア(独自算出の注目度): 71.35604981129838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bi-level optimization (BO) has become a fundamental mathematical framework for addressing hierarchical machine learning problems. As deep learning models continue to grow in size, the demand for scalable bi-level optimization solutions has become increasingly critical. Traditional gradient-based bi-level optimization algorithms, due to their inherent characteristics, are ill-suited to meet the demands of large-scale applications. In this paper, we introduce $\textbf{F}$orward $\textbf{G}$radient $\textbf{U}$nrolling with $\textbf{F}$orward $\textbf{F}$radient, abbreviated as $(\textbf{FG})^2\textbf{U}$, which achieves an unbiased stochastic approximation of the meta gradient for bi-level optimization. $(\text{FG})^2\text{U}$ circumvents the memory and approximation issues associated with classical bi-level optimization approaches, and delivers significantly more accurate gradient estimates than existing large-scale bi-level optimization approaches. Additionally, $(\text{FG})^2\text{U}$ is inherently designed to support parallel computing, enabling it to effectively leverage large-scale distributed computing systems to achieve significant computational efficiency. In practice, $(\text{FG})^2\text{U}$ and other methods can be strategically placed at different stages of the training process to achieve a more cost-effective two-phase paradigm. Further, $(\text{FG})^2\text{U}$ is easy to implement within popular deep learning frameworks, and can be conveniently adapted to address more challenging zeroth-order bi-level optimization scenarios. We provide a thorough convergence analysis and a comprehensive practical discussion for $(\text{FG})^2\text{U}$, complemented by extensive empirical evaluations, showcasing its superior performance in diverse large-scale bi-level optimization tasks.
- Abstract(参考訳): 双方向最適化(BO)は階層型機械学習問題に対処するための基本的な数学的枠組みとなっている。
ディープラーニングモデルのサイズが拡大するにつれて、スケーラブルな双方向最適化ソリューションの需要はますます重要になっている。
従来の勾配に基づく二段階最適化アルゴリズムは、その特性上、大規模アプリケーションの要求を満たすには不適である。
本稿では、$\textbf{F}$orward $\textbf{G}$radient $\textbf{U}$nrolling with $\textbf{F}$orward $\textbf{F}$radient, 略して$(\textbf{FG})^2\textbf{U}$を導入し、バイレベル最適化のためのメタ勾配の偏りのない確率近似を実現する。
$(\text{FG})^2\text{U}$は、古典的な二段階最適化手法に関連するメモリと近似問題を回避し、既存の大規模二段階最適化手法よりもはるかに正確な勾配推定を提供する。
さらに、$(\text{FG})^2\text{U}$は本質的に並列コンピューティングをサポートするように設計されており、大規模分散コンピューティングシステムを効果的に活用して計算効率を大幅に向上させることができる。
実際には、$(\text{FG})^2\text{U}$とその他の方法は、よりコスト効率の良い2相パラダイムを達成するために、トレーニングプロセスの異なる段階に戦略的に配置することができる。
さらに、$(\text{FG})^2\text{U}$は人気のあるディープラーニングフレームワークで簡単に実装でき、より難易度の高い二段階最適化シナリオに対処するために便利に適応できる。
広範な経験的評価によって補完される$(\text{FG})^2\text{U}$に対して、総合的な収束解析と包括的な実践的議論を行い、多様な大規模二段階最適化タスクにおいて、その優れた性能を示す。
関連論文リスト
- Stochastic Constrained Decentralized Optimization for Machine Learning with Fewer Data Oracles: a Gradient Sliding Approach [32.36073823372713]
機械学習モデルでは、アルゴリズムはその勾配のためにデータセンターとサンプルデータに通信する必要がある。
これにより、通信効率が良く、勾配計算の数を最小限に抑える分散最適化アルゴリズムの必要性が生じる。
通信効率が高く,$varepsilon$-approximate のソリューションを実現する。
論文 参考訳(メタデータ) (2024-04-03T06:55:59Z) - Contextual Stochastic Bilevel Optimization [50.36775806399861]
文脈情報と上層変数の期待を最小化する2レベル最適化フレームワークCSBOを導入する。
メタラーニング、パーソナライズドラーニング、エンド・ツー・エンドラーニング、Wassersteinはサイド情報(WDRO-SI)を分散的に最適化している。
論文 参考訳(メタデータ) (2023-10-27T23:24:37Z) - Alternating Implicit Projected SGD and Its Efficient Variants for
Equality-constrained Bilevel Optimization [41.10094500516342]
本稿では、等式制約と制約付き上層問題の両方において、二段階最適化問題を考察する。
等式制約アプローチを活用することにより、第一に、制約のない二段階問題に対して、暗黙射影SGDアプローチを交互に使用する。
論文 参考訳(メタデータ) (2022-11-14T03:47:43Z) - Fast Adaptive Federated Bilevel Optimization [14.579475552088692]
本稿では,分散二レベル最適化問題の解法として,適応型二レベル最適化アルゴリズム(AdaFBiO)を提案する。
AdaFBiOは、統一適応行列を用いて、様々な適応学習率を柔軟に組み込んで、ULおよびLL問題の変数を更新する。
AdaFBiOアルゴリズムの収束解析フレームワークを提供し、$tildeO(epsilon-3)$の複雑さと$tildeO(epsilon-2)$のコミュニケーション複雑さのサンプルが必要であることを証明した。
論文 参考訳(メタデータ) (2022-11-02T13:55:47Z) - Enhanced Bilevel Optimization via Bregman Distance [104.96004056928474]
本稿では,Bregman Bregman関数に基づく二段階最適化手法を提案する。
また,分散還元法によるSBiO-BreD法(ASBiO-BreD)の高速化版も提案する。
論文 参考訳(メタデータ) (2021-07-26T16:18:43Z) - BiAdam: Fast Adaptive Bilevel Optimization Methods [104.96004056928474]
バイレベル最適化は多くの応用のために機械学習への関心が高まっている。
制約付き最適化と制約なし最適化の両方に有用な分析フレームワークを提供する。
論文 参考訳(メタデータ) (2021-06-21T20:16:40Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis
and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。
このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。
本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文 参考訳(メタデータ) (2020-07-10T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。