論文の概要: Optimizing ML Training with Metagradient Descent
- arxiv url: http://arxiv.org/abs/2503.13751v1
- Date: Mon, 17 Mar 2025 22:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:26.449451
- Title: Optimizing ML Training with Metagradient Descent
- Title(参考訳): メタグラディエントDescentを用いたMLトレーニングの最適化
- Authors: Logan Engstrom, Andrew Ilyas, Benjamin Chen, Axel Feldmann, William Moses, Aleksander Madry,
- Abstract要約: モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
- 参考スコア(独自算出の注目度): 69.89631748402377
- License:
- Abstract: A major challenge in training large-scale machine learning models is configuring the training process to maximize model performance, i.e., finding the best training setup from a vast design space. In this work, we unlock a gradient-based approach to this problem. We first introduce an algorithm for efficiently calculating metagradients -- gradients through model training -- at scale. We then introduce a "smooth model training" framework that enables effective optimization using metagradients. With metagradient descent (MGD), we greatly improve on existing dataset selection methods, outperform accuracy-degrading data poisoning attacks by an order of magnitude, and automatically find competitive learning rate schedules.
- Abstract(参考訳): 大規模機械学習モデルのトレーニングにおける大きな課題は、モデルパフォーマンスを最大化するためにトレーニングプロセスを設定することだ。
この作業では、この問題に対する勾配に基づくアプローチを解きます。
まず、モデルトレーニングによる勾配というメタグラディエントを、スケールで効率的に計算するアルゴリズムを紹介します。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
メタグラディエント降下(MGD)では、既存のデータセット選択方法を大幅に改善し、精度低下したデータ中毒攻撃を桁違いに改善し、競合する学習スケジュールを自動的に見つける。
関連論文リスト
- Learning to Generate Gradients for Test-Time Adaptation via Test-Time Training Layers [18.921532965557475]
テストタイム適応は、未ラベルのテストデータを使用してトレーニングされたモデルをオンラインで微調整することを目的としている。
この最適化プロセスでは、エントロピーのような教師なし学習目標がノイズの多い学習信号に頻繁に遭遇する。
そこで我々は,メタグラディエント・ジェネレータと呼ばれるエントロピー・ジェネレータを自動的に学習するために,学習と最適化のアプローチを採用した。
論文 参考訳(メタデータ) (2024-12-22T07:24:09Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection [18.683805940232485]
再重み付けにコアサブセット選択を用いる新しい手法を提案する。
戦略的に選択されたコアセットに焦点を当てることで、我々のアプローチは堅牢な表現を提供する。
再校正された重みは、データセット全体に対してマッピングされ、伝播される。
論文 参考訳(メタデータ) (2024-03-18T18:30:22Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。