論文の概要: An Improved Empirical Fisher Approximation for Natural Gradient Descent
- arxiv url: http://arxiv.org/abs/2406.06420v1
- Date: Mon, 10 Jun 2024 16:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:09:08.282668
- Title: An Improved Empirical Fisher Approximation for Natural Gradient Descent
- Title(参考訳): 自然グレディエントDescenceのための経験的水産近似の改良
- Authors: Xiaodong Wu, Wenyi Yu, Chao Zhang, Philip Woodland,
- Abstract要約: 本稿では, EFの逆スケールプロジェクション問題について検討し, 経験的近似品質の低下の大きな原因であることを示した。
損失低減の観点から, NGD法をモチベーションとした改良型経験的フィッシャー法(iEF)を提案する。
実験により、正確な iEF をオプティマイザとして適用することは、強い収束と一般化をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 6.999522986299594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximate Natural Gradient Descent (NGD) methods are an important family of optimisers for deep learning models, which use approximate Fisher information matrices to pre-condition gradients during training. The empirical Fisher (EF) method approximates the Fisher information matrix empirically by reusing the per-sample gradients collected during back-propagation. Despite its ease of implementation, the EF approximation has its theoretical and practical limitations. This paper first investigates the inversely-scaled projection issue of EF, which is shown to be a major cause of the poor empirical approximation quality. An improved empirical Fisher (iEF) method, motivated as a generalised NGD method from a loss reduction perspective, is proposed to address this issue, meanwhile retaining the practical convenience of EF. The exact iEF and EF methods are experimentally evaluated using practical deep learning setups, including widely-used setups for parameter-efficient fine-tuning of pre-trained models (T5-base with LoRA and Prompt-Tuning on GLUE tasks, and ViT with LoRA for CIFAR100). Optimisation experiments show that applying exact iEF as an optimiser provides strong convergence and generalisation. It achieves the best test performance and the lowest training loss for majority of the tasks, even when compared with well-tuned AdamW/Adafactor baselines. Additionally, under a novel empirical evaluation framework, the proposed iEF method shows consistently better approximation quality to the exact Natural Gradient updates than both EF and the more expensive sampled Fisher (SF). Further investigation also shows that the superior approximation quality of iEF is robust to damping across tasks and training stages. Improving existing approximate NGD optimisers with iEF is expected to lead to better convergence ability and stronger robustness to choice of damping.
- Abstract(参考訳): 近似自然勾配降下法(NGD, Approximate Natural Gradient Descent)は深層学習モデルのオプティマイザの1つである。
実験的なFisher(EF)法は、バックプロパゲーション時に収集したサンプルごとの勾配を再利用することにより、Fisher情報行列を経験的に近似する。
実装の容易さにもかかわらず、EF近似は理論的および実践的な制限がある。
本稿ではまず,実験的近似品質の低下の大きな原因であるEFの逆スケールプロジェクション問題について検討する。
損失低減の観点から一般化NGD法をモチベーションとした改良された経験的フィッシャー法(iEF)が提案され,EFの実用的利便性を維持しつつ,この問題に対処する。
正確なiEF法とEF法は、事前訓練されたモデルのパラメータ効率の良い微調整のための広く使われているセットアップ(GLUEタスクのLoRAとPrompt-Tuning、CIFAR100のLoRAとViT)を含む、実用的なディープラーニング設定を用いて実験的に評価される。
最適化実験により、正確な iEF をオプティマイザとして適用することは、強い収束と一般化をもたらすことが示されている。
十分にチューニングされたAdamW/Adafactorベースラインと比較しても、ほとんどのタスクで最高のテストパフォーマンスとトレーニング損失が最も低い。
さらに,新しい経験的評価フレームワークにより,提案手法は,EFとより高価なFisher(SF)の双方と比較して,正確な自然勾配更新に対する近似精度を一貫して向上させる。
さらなる調査により、iEFの優れた近似品質はタスクやトレーニング段階の減衰に対して堅牢であることが示された。
iEFによる既存の近似NGDオプティマイザの改良は、減衰の選択に対する収束性の向上と強い堅牢性をもたらすことが期待されている。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - A Correlation-induced Finite Difference Estimator [6.054123928890574]
まず, 最適な摂動を推定するためにブートストラップ法を用いて試料駆動法を提案し, そして, 推定された最適摂動の相関値に基づく効率的なFD推定器を提案する。
数値計算により, 推定器の効率性を確認し, 提案理論, 特にサンプルサイズが小さい場合とよく一致した。
論文 参考訳(メタデータ) (2024-05-09T09:27:18Z) - Identity Curvature Laplace Approximation for Improved Out-of-Distribution Detection [4.779196219827508]
不確実性推定は、ロバストなアウト・オブ・ディストリビューション検出が不可欠である安全クリティカルなアプリケーションにおいて重要である。
伝統的なベイズ法は有効ではあるが、しばしば高い計算要求によって妨げられる。
本稿では,従来の補間法に挑戦する新しい手法であるICLA(Identity Curvature Laplace Approximation)を紹介する。
論文 参考訳(メタデータ) (2023-12-16T14:46:24Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - High-Dimensional Bayesian Optimisation with Variational Autoencoders and
Deep Metric Learning [119.91679702854499]
本研究では,高次元の入力空間上でベイズ最適化を行うためのディープ・メトリック・ラーニングに基づく手法を提案する。
このような帰納バイアスを、利用可能なラベル付きデータの1%だけを用いて達成する。
実証的な貢献として、実世界の高次元ブラックボックス最適化問題に対する最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-07T13:35:47Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。