論文の概要: SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning
- arxiv url: http://arxiv.org/abs/2310.02751v1
- Date: Wed, 4 Oct 2023 11:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:19:25.101562
- Title: SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning
- Title(参考訳): SHOT: 勾配に基づくメタラーニングのための最適化軌道に沿ったヘシアンの抑制
- Authors: JunHoo Lee, Jayeon Yoo, and Nojun Kwak
- Abstract要約: SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 28.26143547479141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we hypothesize that gradient-based meta-learning (GBML)
implicitly suppresses the Hessian along the optimization trajectory in the
inner loop. Based on this hypothesis, we introduce an algorithm called SHOT
(Suppressing the Hessian along the Optimization Trajectory) that minimizes the
distance between the parameters of the target and reference models to suppress
the Hessian in the inner loop. Despite dealing with high-order terms, SHOT does
not increase the computational complexity of the baseline model much. It is
agnostic to both the algorithm and architecture used in GBML, making it highly
versatile and applicable to any GBML baseline. To validate the effectiveness of
SHOT, we conduct empirical tests on standard few-shot learning tasks and
qualitatively analyze its dynamics. We confirm our hypothesis empirically and
demonstrate that SHOT outperforms the corresponding baseline. Code is available
at: https://github.com/JunHoo-Lee/SHOT
- Abstract(参考訳): 本稿では,グラデーションベースメタラーニング(gbml)が内部ループの最適化軌道に沿ってヘシアンを暗黙的に抑制することを仮定する。
この仮説に基づいて、ターゲットのパラメータと参照モデルの間の距離を最小化し、内部ループにおけるヘッセンを抑制するアルゴリズムSHOT(Suppressing the Hessian along the Optimization Trajectory)を導入する。
高次項を扱うにもかかわらず、SHOTはベースラインモデルの計算複雑性をあまり増やさない。
GBMLで使用されるアルゴリズムとアーキテクチャの両方に非依存であり、非常に汎用的で、あらゆるGBMLベースラインに適用できる。
ショットの有効性を検証するために,標準的な少数ショット学習タスクで経験的テストを行い,そのダイナミクスを定性的に解析する。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
コードは、https://github.com/JunHoo-Lee/SHOTで入手できる。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。
より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。
我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文 参考訳(メタデータ) (2022-09-13T04:58:35Z) - Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning
Optimization Landscape [15.362190838843915]
LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。
本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-20T07:13:04Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Biased Stochastic First-Order Methods for Conditional Stochastic Optimization and Applications in Meta Learning [24.12941820827126]
条件最適化問題に対するバイアス勾配勾配勾配(BSGD)を提案する。
下界解析により,BSGDは一般凸対象の非目的に対して改善できないことが示された。
この特別な設定のために、下界にマッチするバイアスドスパイダーブースト (BSpiderBoost) と呼ばれる加速アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-25T10:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。