Fugu-MT 論文翻訳(概要): SHOT: Suppressing the Hessian along the Optimization Trajectory for Gradient-Based Meta-Learning

論文の概要: SHOT: Suppressing the Hessian along the Optimization Trajectory for Gradient-Based Meta-Learning

arxiv url: http://arxiv.org/abs/2310.02751v1
Date: Wed, 4 Oct 2023 11:43:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 15:19:25.101562
Title: SHOT: Suppressing the Hessian along the Optimization Trajectory for Gradient-Based Meta-Learning
Title（参考訳）: SHOT: 勾配に基づくメタラーニングのための最適化軌道に沿ったヘシアンの抑制
Authors: JunHoo Lee, Jayeon Yoo, and Nojun Kwak
Abstract要約: SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。 SHOTはベースラインモデルの計算複雑性をあまり増やさない。本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
参考スコア（独自算出の注目度）: 28.26143547479141
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we hypothesize that gradient-based meta-learning (GBML) implicitly suppresses the Hessian along the optimization trajectory in the inner loop. Based on this hypothesis, we introduce an algorithm called SHOT (Suppressing the Hessian along the Optimization Trajectory) that minimizes the distance between the parameters of the target and reference models to suppress the Hessian in the inner loop. Despite dealing with high-order terms, SHOT does not increase the computational complexity of the baseline model much. It is agnostic to both the algorithm and architecture used in GBML, making it highly versatile and applicable to any GBML baseline. To validate the effectiveness of SHOT, we conduct empirical tests on standard few-shot learning tasks and qualitatively analyze its dynamics. We confirm our hypothesis empirically and demonstrate that SHOT outperforms the corresponding baseline. Code is available at: https://github.com/JunHoo-Lee/SHOT
Abstract（参考訳）: 本稿では,グラデーションベースメタラーニング(gbml)が内部ループの最適化軌道に沿ってヘシアンを暗黙的に抑制することを仮定する。この仮説に基づいて、ターゲットのパラメータと参照モデルの間の距離を最小化し、内部ループにおけるヘッセンを抑制するアルゴリズムSHOT(Suppressing the Hessian along the Optimization Trajectory)を導入する。高次項を扱うにもかかわらず、SHOTはベースラインモデルの計算複雑性をあまり増やさない。 GBMLで使用されるアルゴリズムとアーキテクチャの両方に非依存であり、非常に汎用的で、あらゆるGBMLベースラインに適用できる。ショットの有効性を検証するために,標準的な少数ショット学習タスクで経験的テストを行い,そのダイナミクスを定性的に解析する。本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。コードは、https://github.com/JunHoo-Lee/SHOTで入手できる。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-04-02T20:23:10Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文参考訳（メタデータ） (2022-09-13T04:58:35Z)
Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning Optimization Landscape [15.362190838843915]
LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
論文参考訳（メタデータ） (2022-01-20T07:13:04Z)
Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文参考訳（メタデータ） (2021-02-07T20:53:23Z)
Bayesian Sparse learning with preconditioned stochastic gradient MCMC and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文参考訳（メタデータ） (2020-06-29T20:57:20Z)
On the Convergence Rate of Projected Gradient Descent for a Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。 LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文参考訳（メタデータ） (2020-05-03T00:58:23Z)
Biased Stochastic First-Order Methods for Conditional Stochastic Optimization and Applications in Meta Learning [24.12941820827126]
条件最適化問題に対するバイアス勾配勾配勾配(BSGD)を提案する。下界解析により,BSGDは一般凸対象の非目的に対して改善できないことが示された。この特別な設定のために、下界にマッチするバイアスドスパイダーブースト (BSpiderBoost) と呼ばれる加速アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-25T10:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。