論文の概要: Fishers for Free? Approximating the Fisher Information Matrix by Recycling the Squared Gradient Accumulator
- arxiv url: http://arxiv.org/abs/2507.18807v1
- Date: Thu, 24 Jul 2025 21:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.757448
- Title: Fishers for Free? Approximating the Fisher Information Matrix by Recycling the Squared Gradient Accumulator
- Title(参考訳): 自由のための漁業 : 正方形グラディエント集積器のリサイクルによる漁業情報マトリックスの近似
- Authors: YuXin Li, Felix Dangel, Derek Tam, Colin Raffel,
- Abstract要約: モデルのフィッシャー情報行列(フィッシャー対角線)の対角線はパラメータの感度を測定する手段として頻繁に用いられる。
本稿では,すでに計算済みの2乗勾配をリサイクルすることにより,フィッシャー対角線の近似を「無償」で得ることができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 39.369412319701006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diagonal of a model's Fisher Information Matrix (the "Fisher diagonal") has frequently been used as a way to measure parameter sensitivity. Typically, the Fisher diagonal is estimated via squared sampled gradients of the model's likelihood with respect to its parameters, averaged over a few hundred or thousand examples -- a process which incurs nontrivial computational costs. At the same time, adaptive gradient methods like the ubiquitous Adam optimizer compute a moving average of the squared gradient over the course of training. This paper therefore explores whether an approximation of the Fisher diagonal can be obtained "for free" by recycling the squared gradient accumulator that has already been computed over the course of training. Through a comprehensive set of experiments covering five applications of the Fisher diagonal, we demonstrate that the "Squisher" (SQUared gradient accumulator as an approximation of the FISHER) consistently performs similarly to the Fisher diagonal while outperforming baseline methods. Additionally, we clarify the exact differences between the Squisher and the Fisher diagonal and provide empirical quantification of their respective impact.
- Abstract(参考訳): モデルのフィッシャー情報行列(フィッシャー対角線)の対角線はパラメータの感度を測定する手段として頻繁に用いられる。
典型的には、フィッシャー対角線は、そのパラメータに対するモデルの可能性の2乗サンプル勾配によって推定される。
同時に、ユビキタスなアダムオプティマイザのような適応的な勾配法は、トレーニングの過程で2乗勾配の移動平均を計算する。
そこで本研究では,すでに訓練中に計算された2乗勾配アキュムレータをリサイクルすることにより,フィッシャー対角線の近似を「無償で」得ることができるかどうかを考察する。
フィッシャー対角線の5つの応用を網羅した総合的な実験を通して,「スキッシャー」(SQUared gradient accumulator を FISHER の近似として用いた)が一貫してフィッシャー対角線と同等に動作し,ベースライン法より優れていることを示した。
さらに、スキッシャー対角線とフィッシャー対角線との正確な違いを明らかにし、それぞれの影響を実証的な定量化する。
関連論文リスト
- Generalized Fisher-Weighted SVD: Scalable Kronecker-Factored Fisher Approximation for Compressing Large Language Models [6.57101653042078]
Generalized Fisher-Weighted SVD (GFWSVD) は、フィッシャー情報行列の対角要素と対角要素の両方を考慮に入れた後処理圧縮技術である。
提案手法がLLM圧縮に与える影響を実証し,既存の圧縮ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-23T14:41:52Z) - Approximation and bounding techniques for the Fisher-Rao distances between parametric statistical models [7.070726553564701]
我々はフィッシャー・ラオ距離の数値的ロバストな近似と有界化について考察する。
特に、近似に対する任意の小さな加算誤差を保証するための一般的な方法を得る。
我々は,フィッシャー・ラオ測地線のプロキシとして機能する曲線長をベースとした2つの新しい距離を提案する。
論文 参考訳(メタデータ) (2024-03-15T08:05:16Z) - Closed-form Filtering for Non-linear Systems [83.91296397912218]
我々は密度近似と計算効率の面でいくつかの利点を提供するガウスPSDモデルに基づく新しいフィルタのクラスを提案する。
本研究では,遷移や観測がガウスPSDモデルである場合,フィルタリングを効率的にクローズド形式で行うことができることを示す。
提案する推定器は, 近似の精度に依存し, 遷移確率の正則性に適応する推定誤差を伴って, 高い理論的保証を享受する。
論文 参考訳(メタデータ) (2024-02-15T08:51:49Z) - Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients [0.8749675983608172]
動力学的ランゲヴィンダイナミクスに基づく後進手段の非バイアス化手法を提案する。
提案した推定器は偏りがなく、有限分散となり、中心極限定理を満たす。
以上の結果から、大規模アプリケーションでは、非バイアスアルゴリズムは「ゴールドスタンダード」なハミルトニアン・モンテカルロよりも2~3桁効率が良いことが示された。
論文 参考訳(メタデータ) (2023-11-08T21:19:52Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Natural Gradient Methods: Perspectives, Efficient-Scalable
Approximations, and Analysis [0.0]
Natural Gradient Descentは、情報幾何学によって動機付けられた2次最適化手法である。
一般的に使用されるヘッセン語の代わりにフィッシャー情報マトリックスを使用している。
2階法であることは、膨大な数のパラメータとデータを扱う問題で直接使用されることが不可能である。
論文 参考訳(メタデータ) (2023-03-06T04:03:56Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Learning Linearized Assignment Flows for Image Labeling [70.540936204654]
画像ラベリングのための線形化代入フローの最適パラメータを推定するための新しいアルゴリズムを提案する。
この式をKrylov部分空間と低ランク近似を用いて効率的に評価する方法を示す。
論文 参考訳(メタデータ) (2021-08-02T13:38:09Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。