論文の概要: HyperINF: Unleashing the HyperPower of the Schulz's Method for Data Influence Estimation
- arxiv url: http://arxiv.org/abs/2410.05090v1
- Date: Mon, 7 Oct 2024 14:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:28:18.649370
- Title: HyperINF: Unleashing the HyperPower of the Schulz's Method for Data Influence Estimation
- Title(参考訳): HyperINF: データ影響推定のためのSchulzのメソッドのハイパーパワーを開放する
- Authors: Xinyu Zhou, Simin Fan, Martin Jaggi,
- Abstract要約: 本稿では,効率よく正確な影響関数近似法であるHyperINFを提案する。
我々は、ヘッセン行列の低ランク近似として、GFIM(Generalized Fisher Information)を組み込んだ。
LoRAでチューニングされたモデルでは、HyperINFは最小限のメモリと計算オーバーヘッドで、より優れたダウンストリーム性能を実現する。
- 参考スコア(独自算出の注目度): 37.62285675595782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Influence functions provide a principled method to assess the contribution of individual training samples to a specific target. Yet, their high computational costs limit their applications on large-scale models and datasets. Existing methods proposed for influence function approximation have significantly reduced the computational overheads. However, they mostly suffer from inaccurate estimation due to the lack of strong convergence guarantees from the algorithm. The family of hyperpower methods are well-known for their rigorous convergence guarantees on matrix inverse approximation, while the matrix multiplication operation can involve intractable memory and computation costs on large-scale models. We propose HyperINF, an efficient and accurate influence function approximation method which leverages the hyperpower method, specifically Schulz's iterative algorithm. To deal with the computation-intensive matrix multiplication, we incorporate the generalized fisher information (GFIM) as a low-rank approximation of the Hessian matrix, which reduces the memory and computation overheads to constant costs independent of ranks on LoRA-tuned models. We first demonstrate the superior accuracy and stability of \method compared to other baselines through a synthetic convergence simulation for matrix inversion. We further validate the efficacy of \method through extensive real-world data attribution tasks, including mislabeled data detection and data selection for LLM and VLM fine-tuning. On LoRA-tuned models, HyperINF achieves superior downstream performance with minimal memory and computational overhead, while other baselines suffer from significant degradation. Our codebase is available at https://github.com/Blackzxy/HyperINF.
- Abstract(参考訳): 影響関数は、個別のトレーニングサンプルの特定の目標への貢献を評価するための原則的な方法を提供する。
しかし、計算コストが高いため、大規模モデルやデータセットへの適用は制限される。
影響関数近似のための既存の手法は計算オーバーヘッドを著しく減らした。
しかし、アルゴリズムからの強い収束保証が欠如しているため、主に不正確な推定に苦しむ。
超パワーの手法の族は、行列逆近似の厳密な収束を保証することで有名であるが、行列乗算演算は、大規模モデルにおいて難解なメモリと計算コストを伴うことがある。
本稿では,超パワー法,特にシュルツの反復アルゴリズムを利用した効率よく正確な影響関数近似法であるHyperINFを提案する。
計算集約的行列乗算に対処するため、一般化された漁師情報(GFIM)をヘッセン行列の低ランク近似として組み込んだ。
まず, 行列逆変換の合成収束シミュレーションにより, 他のベースラインと比較して, \method の精度と安定性を示す。
LLM や VLM の微調整における誤ラベル付きデータ検出やデータ選択など,大規模な実世界のデータ属性タスクによる \method の有効性をさらに検証する。
LoRAをチューニングしたモデルでは、HyperINFはメモリと計算オーバーヘッドを最小限に抑えながら、ダウンストリームのパフォーマンスを向上する一方、他のベースラインは大幅に劣化する。
私たちのコードベースはhttps://github.com/Blackzxy/HyperINF.orgで公開されています。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Iterative Methods for Full-Scale Gaussian Process Approximations for Large Spatial Data [9.913418444556486]
本稿では, FSAを用いた確率, 勾配, 予測分布の計算コストの削減に, 反復法をどのように利用できるかを示す。
また,推定法や反復法に依存する予測分散を計算する新しい,正確かつ高速な手法を提案する。
すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。
論文 参考訳(メタデータ) (2024-05-23T12:25:22Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and
Diffusion Models [31.65198592956842]
本稿では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。
理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。
RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
論文 参考訳(メタデータ) (2023-10-02T04:59:19Z) - Rigorous dynamical mean field theory for stochastic gradient descent
methods [17.90683687731009]
一階勾配法の一家系の正確な高次元に対する閉形式方程式を証明した。
これには勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2022-10-12T21:10:55Z) - Dictionary-based Low-Rank Approximations and the Mixed Sparse Coding
problem [7.132368785057316]
本稿では、LASSOに基づく効率的なMSC解法を用いて、辞書に基づく行列分解と正準多進分解を計算する方法を示す。
超スペクトル画像処理と化学計測の文脈における辞書に基づく行列分解と正準多進分解の計算に、LASSOに基づく効率的なMSC解法を適用する方法を示す。
論文 参考訳(メタデータ) (2021-11-24T10:32:48Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。