論文の概要: Generalized Fisher-Weighted SVD: Scalable Kronecker-Factored Fisher Approximation for Compressing Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17974v1
- Date: Fri, 23 May 2025 14:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.165036
- Title: Generalized Fisher-Weighted SVD: Scalable Kronecker-Factored Fisher Approximation for Compressing Large Language Models
- Title(参考訳): 一般化された魚介類重み付きSVD:大規模言語モデル圧縮のためのスケーラブルクロネッカー型魚介類近似
- Authors: Viktoriia Chekalina, Daniil Moskovskiy, Daria Cherniuk, Maxim Kurkin, Andrey Kuznetsov, Evgeny Frolov,
- Abstract要約: Generalized Fisher-Weighted SVD (GFWSVD) は、フィッシャー情報行列の対角要素と対角要素の両方を考慮に入れた後処理圧縮技術である。
提案手法がLLM圧縮に与える影響を実証し,既存の圧縮ベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 6.57101653042078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Fisher information is a fundamental concept for characterizing the sensitivity of parameters in neural networks. However, leveraging the full observed Fisher information is too expensive for large models, so most methods rely on simple diagonal approximations. While efficient, this approach ignores parameter correlations, often resulting in reduced performance on downstream tasks. In this work, we mitigate these limitations and propose Generalized Fisher-Weighted SVD (GFWSVD), a post-training LLM compression technique that accounts for both diagonal and off-diagonal elements of the Fisher information matrix, providing a more accurate reflection of parameter importance. To make the method tractable, we introduce a scalable adaptation of the Kronecker-factored approximation algorithm for the observed Fisher information. We demonstrate the effectiveness of our method on LLM compression, showing improvements over existing compression baselines. For example, at a 20 compression rate on the MMLU benchmark, our method outperforms FWSVD, which is based on a diagonal approximation of the Fisher information, by 5 percent, SVD-LLM by 3 percent, and ASVD by 6 percent compression rate.
- Abstract(参考訳): Fisher情報は、ニューラルネットワークにおけるパラメータの感度を特徴付けるための基本的な概念である。
しかし、観測されたフィッシャー情報の完全活用は大型モデルには高すぎるため、ほとんどの手法は単純な対角近似に依存している。
効率的ではあるが、このアプローチはパラメータの相関を無視し、しばしば下流タスクのパフォーマンスを低下させる。
本研究では,これらの制約を緩和し,パラメータの重要度をより正確に反映し,Filse情報行列の対角要素と対角要素の両方を考慮した後学習LLM圧縮技術であるGeneralized Fisher-Weighted SVD (GFWSVD)を提案する。
提案手法は,観測されたフィッシャー情報に対するKronecker-factored approximationアルゴリズムのスケーラブルな適応を実現する。
提案手法がLLM圧縮に与える影響を実証し,既存の圧縮ベースラインよりも優れた性能を示す。
例えば、MMLUベンチマークの20圧縮レートでは、フィッシャー情報の対角近似に基づいてFWSVDを5%、SVD-LLMを3%、ASVDを6%上回る。
関連論文リスト
- Efficient Model Compression Techniques with FishLeg [30.69238973086908]
FishLegはFisher-Legendre(FishLeg)に基づく新しい二階刈り法である
FishLegの心臓部は、逆FIMの作用を補うメタラーニングアプローチである。
FishLegは,2つの共通ベースラインに対して高い,あるいは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-03T09:42:16Z) - FisherMask: Enhancing Neural Network Labeling Efficiency in Image Classification Using Fisher Information [2.762397703396293]
FisherMaskはFisher情報に基づくアクティブラーニング(AL)アプローチで、主要なネットワークパラメータをマスキングすることで識別する。
実験の結果,FisherMaskは多様なデータセット上で最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-08T18:10:46Z) - Uncovering Model Processing Strategies with Non-Negative Per-Example Fisher Factorization [44.39409273712917]
我々は,モデルが予測を生成するために使用する戦略を明らかにすることを目的とした解釈可能性手法であるNPEFFを紹介する。
我々は NPEFF コンポーネントが様々な言語モデルやテキスト処理タスクのモデル処理戦略に対応することを実証した。
論文 参考訳(メタデータ) (2023-10-07T02:02:45Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Efficient Approximations of the Fisher Matrix in Neural Networks using
Kronecker Product Singular Value Decomposition [0.0]
自然勾配降下法は, 通常の勾配降下法よりも効率よく目的関数を最小化できることを示した。
ディープニューラルネットワークのトレーニングにおけるこのアプローチのボトルネックは、各イテレーションでFiher Information Matrix (FIM)に対応する大規模な密度の高い線形システムを解くことの禁止コストにある。
これは、正確なFIMまたは経験的なFIMの様々な近似を動機付けている。
最も洗練されたものは KFAC であり、Kronecker による FIM のブロック対角近似を含む。
わずかな追加費用だけで、精度の観点からのKFACの改良が提案されている。
論文 参考訳(メタデータ) (2022-01-25T12:56:17Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。