論文の概要: SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning
- arxiv url: http://arxiv.org/abs/2310.02751v1
- Date: Wed, 4 Oct 2023 11:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:19:25.101562
- Title: SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning
- Title(参考訳): SHOT: 勾配に基づくメタラーニングのための最適化軌道に沿ったヘシアンの抑制
- Authors: JunHoo Lee, Jayeon Yoo, and Nojun Kwak
- Abstract要約: SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 28.26143547479141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we hypothesize that gradient-based meta-learning (GBML)
implicitly suppresses the Hessian along the optimization trajectory in the
inner loop. Based on this hypothesis, we introduce an algorithm called SHOT
(Suppressing the Hessian along the Optimization Trajectory) that minimizes the
distance between the parameters of the target and reference models to suppress
the Hessian in the inner loop. Despite dealing with high-order terms, SHOT does
not increase the computational complexity of the baseline model much. It is
agnostic to both the algorithm and architecture used in GBML, making it highly
versatile and applicable to any GBML baseline. To validate the effectiveness of
SHOT, we conduct empirical tests on standard few-shot learning tasks and
qualitatively analyze its dynamics. We confirm our hypothesis empirically and
demonstrate that SHOT outperforms the corresponding baseline. Code is available
at: https://github.com/JunHoo-Lee/SHOT
- Abstract(参考訳): 本稿では,グラデーションベースメタラーニング(gbml)が内部ループの最適化軌道に沿ってヘシアンを暗黙的に抑制することを仮定する。
この仮説に基づいて、ターゲットのパラメータと参照モデルの間の距離を最小化し、内部ループにおけるヘッセンを抑制するアルゴリズムSHOT(Suppressing the Hessian along the Optimization Trajectory)を導入する。
高次項を扱うにもかかわらず、SHOTはベースラインモデルの計算複雑性をあまり増やさない。
GBMLで使用されるアルゴリズムとアーキテクチャの両方に非依存であり、非常に汎用的で、あらゆるGBMLベースラインに適用できる。
ショットの有効性を検証するために,標準的な少数ショット学習タスクで経験的テストを行い,そのダイナミクスを定性的に解析する。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
コードは、https://github.com/JunHoo-Lee/SHOTで入手できる。
関連論文リスト
- Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Nonconvex Stochastic Bregman Proximal Gradient Method with Application
to Deep Learning [6.807786746803371]
微分可能部のスムーズな近似のみを必要とするBregman Bregman法(SBPG)の家系について検討する。
MSBPGは、計算において普遍的なオープンソースとして使われる可能性がある。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - R\'{e}nyi Divergence Deep Mutual Learning [10.357597530261664]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。
より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。
我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文 参考訳(メタデータ) (2022-09-13T04:58:35Z) - Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning
Optimization Landscape [15.362190838843915]
LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。
本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-20T07:13:04Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Sharp Analysis of Smoothed Bellman Error Embedding [17.296084954104415]
バッチモード強化学習におけるSBEEDの理論的挙動について検討する。
使用済み関数クラスの表現力に依存するほぼ最適性能を保証する。
論文 参考訳(メタデータ) (2020-07-07T19:27:09Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。