論文の概要: DyKAF: Dynamical Kronecker Approximation of the Fisher Information Matrix for Gradient Preconditioning
- arxiv url: http://arxiv.org/abs/2511.06477v1
- Date: Sun, 09 Nov 2025 17:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.97058
- Title: DyKAF: Dynamical Kronecker Approximation of the Fisher Information Matrix for Gradient Preconditioning
- Title(参考訳): DyKAF: グラディエントプレコンディショニングのための釣り情報行列の動的クローネッカー近似
- Authors: Nikolay Yudin, Ekaterina Grishina, Andrey Veprikov, Alexandr Beznosikov, Maxim Rakhuba,
- Abstract要約: DyKAF (Dynamic Kronalecker Approximation of the Fisher Matrix) を導入した。
実験の結果,DyKAFは様々な評価指標で既存の近似よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 47.17050585542348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, optimizers that explicitly treat weights as matrices, rather than flattened vectors, have demonstrated their effectiveness. This perspective naturally leads to structured approximations of the Fisher matrix as preconditioners, where the matrix view induces a Kronecker-factorized form that enables memory-efficient representation. However, constructing such approximations both efficiently and accurately remains an open challenge, since obtaining the optimal factorization is resource-intensive and practical methods therefore rely on heuristic design choices. In this work, we introduce a novel approach that leverages projector-splitting integrators to construct effective preconditioners. Our optimizer, DyKAF (Dynamical Kronecker Approximation of the Fisher Matrix), consistently improves the Fisher matrix approximation quality. Experiments on large language model pre-training and fine-tuning demonstrate that DyKAF outperforms existing optimizers across a range of evaluation metrics.
- Abstract(参考訳): 近年,重みを平坦なベクトルではなく行列として明示的に扱う最適化器が有効性を示している。
この観点は自然にフィッシャー行列をプレコンディショナーとして構造化し、行列ビューはメモリ効率の表現を可能にするKronecker-factorized形式を誘導する。
しかし、最適因数分解は資源集約的であり、実践的な手法はヒューリスティックな設計選択に依存しているため、そのような近似を効率的かつ正確に構築することはオープンな課題である。
そこで本研究では,プロジェクタ分割積分器を用いて効率的なプレコンディショナーを構築する手法を提案する。
我々の最適化器であるDyKAF (Dynamical Kronecker Approximation of the Fisher Matrix) は一貫してFisherMatrix Approximationの品質を改善している。
大規模な言語モデルの事前トレーニングと微調整の実験は、DyKAFが様々な評価指標で既存のオプティマイザより優れていることを示している。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - Regularized Projection Matrix Approximation with Applications to Community Detection [1.3761665705201904]
本稿では,アフィニティ行列からクラスタ情報を復元するための正規化プロジェクション行列近似フレームワークを提案する。
3つの異なるペナルティ関数について検討し, それぞれが有界, 正, スパースシナリオに対応するように調整した。
合成および実世界の両方のデータセットで行った数値実験により、我々の正規化射影行列近似アプローチはクラスタリング性能において最先端の手法を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-26T15:18:22Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - An Adaptive Alternating-direction-method-based Nonnegative Latent Factor
Model [2.857044909410376]
交互方向法に基づく非負潜在因子モデルにより、高次元および不完全行列への効率的な表現学習を行うことができる。
本稿では,超パラメータ適応を粒子群最適化の原理に従って実装した適応交互方向法に基づく非負遅延因子モデルを提案する。
産業応用によって生成される非負のHDI行列に関する実証的研究は、A2NLFが計算および記憶効率においていくつかの最先端モデルより優れており、HDI行列の欠落データに対する高い競合推定精度を維持していることを示している。
論文 参考訳(メタデータ) (2022-04-11T03:04:26Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - Efficient Model-Based Collaborative Filtering with Fast Adaptive PCA [4.878057307346225]
高速適応ランダム化特異値分解(SVD)を用いたモデルベース協調フィルタリング(CF)手法を提案する。
適応型PCAのための新しい終端機構を提案し, ほぼ最適な予測精度を達成するための複数の潜時因子を自動決定する。
提案したモデルベースCFアプローチは,20MレーティングでMatlab MovieLenデータを効率的に処理し,正規化因数分解に基づくアプローチよりも10倍以上のスピードアップを示す。
論文 参考訳(メタデータ) (2020-09-04T15:32:14Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Augmentation of the Reconstruction Performance of Fuzzy C-Means with an
Optimized Fuzzification Factor Vector [99.19847674810079]
Fuzzy C-Means (FCM) は情報グラニュラーを構成する最も頻繁に使用される手法の1つである。
本稿では, ファジィ化因子のベクトルを導入することにより, FCMに基づく脱顆粒機構を増強する。
合成データセットと公開データセットの両方で実験が完了し、提案手法が汎用データ再構成手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-13T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。