論文の概要: Scalable Meta-Learning via Mixed-Mode Differentiation
- arxiv url: http://arxiv.org/abs/2505.00793v1
- Date: Thu, 01 May 2025 18:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.797219
- Title: Scalable Meta-Learning via Mixed-Mode Differentiation
- Title(参考訳): 混合モード差分によるスケーラブルなメタラーニング
- Authors: Iurii Kemaev, Dan A Calian, Luisa M Zintgraf, Gregory Farquhar, Hado van Hasselt,
- Abstract要約: Mixed-Flow Meta-Gradientsは、より効率的でスケーラブルな計算グラフを構築するために混合モード微分を利用する実用的なアルゴリズムである。
我々は,MixFlow-MGが10倍以上のメモリを生成でき,モダンなメタ学習環境における標準実装よりも最大25%のウォールクロック時間を改善することを示す。
- 参考スコア(独自算出の注目度): 20.117663282362944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based bilevel optimisation is a powerful technique with applications in hyperparameter optimisation, task adaptation, algorithm discovery, meta-learning more broadly, and beyond. It often requires differentiating through the gradient-based optimisation process itself, leading to "gradient-of-a-gradient" calculations with computationally expensive second-order and mixed derivatives. While modern automatic differentiation libraries provide a convenient way to write programs for calculating these derivatives, they oftentimes cannot fully exploit the specific structure of these problems out-of-the-box, leading to suboptimal performance. In this paper, we analyse such cases and propose Mixed-Flow Meta-Gradients, or MixFlow-MG -- a practical algorithm that uses mixed-mode differentiation to construct more efficient and scalable computational graphs yielding over 10x memory and up to 25% wall-clock time improvements over standard implementations in modern meta-learning setups.
- Abstract(参考訳): グラディエントベースのバイレベル最適化は、ハイパーパラメータ最適化、タスク適応、アルゴリズム発見、メタラーニングなどの応用において強力なテクニックである。
勾配に基づく最適化プロセス自体を微分するのにはしばしば必要であり、計算に高価な2階数と混合導関数による「段階的な」計算につながる。
現代の自動微分ライブラリは、これらの微分を計算するためのプログラムを書くのに便利な方法を提供しているが、多くの場合、これらの問題の特定の構造を完全に活用することはできない。
本稿では、これらのケースを分析し、Mixed-Flow Meta-Gradients(MixFlow-MG)を提案する。これは、MixFlow-MG(MixFlow-MG)を用いて、10倍のメモリを持つより効率的でスケーラブルな計算グラフを構築するための実用的なアルゴリズムである。
関連論文リスト
- Towards Differentiable Multilevel Optimization: A Gradient-Based Approach [1.6114012813668932]
本稿では,多レベル最適化のための新しい勾配に基づくアプローチを提案する。
本手法は解の精度と収束速度を両立させながら計算複雑性を著しく低減する。
私たちの知る限りでは、これは暗黙の微分の一般的なバージョンを提供する最初のアルゴリズムの1つである。
論文 参考訳(メタデータ) (2024-10-15T06:17:59Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning [0.0]
機械学習アルゴリズムは勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。
全体的な性能は、局所的なミニマと不毛の高原の出現に依存する。
本稿では,これらの手法の全般的な性能向上を図り,バレンプラトー効果と局所ミニマ効果を緩和する汎用戦略を提案する。
論文 参考訳(メタデータ) (2023-04-13T18:26:05Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Scalable Second Order Optimization for Deep Learning [34.12384996822749]
本稿では,第2次プレコンディショニング手法のスケーラブルな実装について述べる(第2に,完全行列 Adagrad の変種)。
我々の新しい設計は、多コアCPUと複数のアクセラレーションユニットを組み合わせた深層モデルのトレーニングに、一般的な異種ハードウェアアーキテクチャを効果的に活用する。
本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。
論文 参考訳(メタデータ) (2020-02-20T20:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。