論文の概要: Revisiting inverse Hessian vector products for calculating influence functions
- arxiv url: http://arxiv.org/abs/2409.17357v1
- Date: Wed, 25 Sep 2024 21:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 11:54:28.976332
- Title: Revisiting inverse Hessian vector products for calculating influence functions
- Title(参考訳): 影響関数計算のための逆ヘッセンベクトル積の再検討
- Authors: Yegor Klochkov, Yang Liu,
- Abstract要約: 影響関数は、モデルの出力をトレーニングデータに関連付ける一般的なツールである。
本稿では,3つのハイパーパラメータ(スケーリング係数,バッチサイズ,ステップ数)がヘッセンのスペクトル特性によって選択可能であることを示す。
- 参考スコア(独自算出の注目度): 10.22707011375804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Influence functions are a popular tool for attributing a model's output to training data. The traditional approach relies on the calculation of inverse Hessian-vector products (iHVP), but the classical solver "Linear time Stochastic Second-order Algorithm" (LiSSA, Agarwal et al. (2017)) is often deemed impractical for large models due to expensive computation and hyperparameter tuning. We show that the three hyperparameters -- the scaling factor, the batch size, and the number of steps -- can be chosen depending on the spectral properties of the Hessian, particularly its trace and largest eigenvalue. By evaluating with random sketching (Swartworth and Woodruff, 2023), we find that the batch size has to be sufficiently large for LiSSA to converge; however, for all of the models we consider, the requirement is mild. We confirm our findings empirically by comparing to Proximal Bregman Retraining Functions (PBRF, Bae et al. (2022)). Finally, we discuss what role the inverse Hessian plays in calculating the influence.
- Abstract(参考訳): 影響関数は、モデルの出力をトレーニングデータに関連付ける一般的なツールである。
従来の手法は逆 Hessian-vector 積 (iHVP) の計算に依存しているが、古典的な解法である "Linear Time Stochastic Second-order Algorithm" (LiSSA, Agarwal et al (2017)) は、高価な計算とハイパーパラメータチューニングのため、しばしば大規模モデルでは実用的ではないと考えられている。
3つのハイパーパラメータ(スケーリング係数、バッチサイズ、ステップ数)は、ヘッセンのスペクトル特性、特にそのトレースと最大の固有値によって選択可能であることを示す。
ランダムスケッチによる評価(Swartworth and Woodruff, 2023)により、LiSSAが収束するにはバッチサイズが十分大きすぎることが判明する。
今回,近位Bregman Retraining Function (PBRF, Bae et al (2022)) と比較し, 経験的に確認した。
最後に,その影響を計算する上で,逆ヘッセンが果たす役割について論じる。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Stochastic Gradient Descent for Nonparametric Regression [11.24895028006405]
本稿では,非パラメトリック加法モデルをトレーニングするための反復アルゴリズムを提案する。
結果の不等式は、モデルの誤特定を可能にする託宣を満足していることが示される。
論文 参考訳(メタデータ) (2024-01-01T08:03:52Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Training normalizing flows with computationally intensive target
probability distributions [0.018416014644193065]
本稿では,REINFORCEアルゴリズムに基づく流れの正規化のための推定器を提案する。
ウォールタイムでは最大10倍高速で、最大30%のメモリを必要とする。
論文 参考訳(メタデータ) (2023-08-25T10:40:46Z) - Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか?
我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。
本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文 参考訳(メタデータ) (2023-08-07T04:47:42Z) - Dual-sPLS: a family of Dual Sparse Partial Least Squares regressions for
feature selection and prediction with tunable sparsity; evaluation on
simulated and near-infrared (NIR) data [1.6099403809839032]
この論文で示された変種であるDual-sPLSは、古典的なPLS1アルゴリズムを一般化する。
正確な予測と効率的な解釈のバランスを提供する。
コードはRでオープンソースパッケージとして提供される。
論文 参考訳(メタデータ) (2023-01-17T21:50:35Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in
High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。
本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文 参考訳(メタデータ) (2020-06-16T04:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。