論文の概要: Revisit, Extend, and Enhance Hessian-Free Influence Functions
- arxiv url: http://arxiv.org/abs/2405.17490v1
- Date: Sat, 25 May 2024 03:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:00:30.048558
- Title: Revisit, Extend, and Enhance Hessian-Free Influence Functions
- Title(参考訳): Revisit, Extend, and Enhance Hessian-free Influence Function
- Authors: Ziao Yang, Han Yue, Jian Chen, Hongfu Liu,
- Abstract要約: 影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。
本稿では,Trac として知られる特定の有効近似法を再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
- 参考スコア(独自算出の注目度): 26.105554752277648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Influence functions serve as crucial tools for assessing sample influence in model interpretation, subset training set selection, noisy label detection, and more. By employing the first-order Taylor extension, influence functions can estimate sample influence without the need for expensive model retraining. However, applying influence functions directly to deep models presents challenges, primarily due to the non-convex nature of the loss function and the large size of model parameters. This difficulty not only makes computing the inverse of the Hessian matrix costly but also renders it non-existent in some cases. Various approaches, including matrix decomposition, have been explored to expedite and approximate the inversion of the Hessian matrix, with the aim of making influence functions applicable to deep models. In this paper, we revisit a specific, albeit naive, yet effective approximation method known as TracIn. This method substitutes the inverse of the Hessian matrix with an identity matrix. We provide deeper insights into why this simple approximation method performs well. Furthermore, we extend its applications beyond measuring model utility to include considerations of fairness and robustness. Finally, we enhance TracIn through an ensemble strategy. To validate its effectiveness, we conduct experiments on synthetic data and extensive evaluations on noisy label detection, sample selection for large language model fine-tuning, and defense against adversarial attacks.
- Abstract(参考訳): 影響関数は、モデル解釈、サブセットトレーニングセットの選択、ノイズラベル検出などにおけるサンプルの影響を評価する重要なツールとして機能する。
1階テイラー拡張を用いることで、高価なモデル再訓練を必要とせずに、影響関数はサンプルの影響を推定できる。
しかし、深いモデルに直接影響関数を適用することは、主に損失関数の非凸の性質とモデルパラメータの大きいサイズが原因である。
この困難さは、計算をヘッセン行列の逆数にコストがかかるだけでなく、場合によっては存在しない。
行列分解を含む様々な手法がヘッセン行列の逆転を高速化し近似するために研究され、深いモデルに適用可能な影響関数を作ることを目的としている。
本稿では,TracIn として知られる具体的な,しかし有効な近似法について再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
この単純な近似法がうまく機能する理由について、より深い知見を提供する。
さらに、フェアネスとロバストネスの考慮を含むモデルユーティリティの測定を超えて、その応用を拡大する。
最後に,TracInをアンサンブル戦略により強化する。
その有効性を検証するため、我々は合成データの実験を行い、ノイズラベルの検出、大規模言語モデルの微調整のためのサンプル選択、敵攻撃に対する防御について広範な評価を行った。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Outlier Gradient Analysis: Efficiently Improving Deep Learning Model Performance via Hessian-Free Influence Functions [36.05242956018461]
影響関数は、各データサンプルがモデル予測に与える影響を評価するための堅牢なツールを提供する。
本稿では,データ中心のシナリオ – トリミングアウトレーヤ – と統合フレームワークにおける両課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか?
我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。
本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文 参考訳(メタデータ) (2023-08-07T04:47:42Z) - Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-02-15T12:02:59Z) - Efficient Multidimensional Functional Data Analysis Using Marginal
Product Basis Systems [2.4554686192257424]
多次元関数データのサンプルから連続表現を学習するためのフレームワークを提案する。
本研究では, テンソル分解により, 得られた推定問題を効率的に解けることを示す。
我々は、ニューロイメージングにおける真のデータ応用で締めくくっている。
論文 参考訳(メタデータ) (2021-07-30T16:02:15Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - The Dilemma Between Data Transformations and Adversarial Robustness for
Time Series Application Systems [1.2056495277232115]
アドリシャルな例、あるいは攻撃者が生成したほぼ区別できない入力は、機械学習の精度を著しく低下させる。
この研究は、データ変換が、リカレントニューラルネットワーク上で効果的な敵サンプルを作成する敵の能力にどのように影響するかを考察する。
データ変換技術は、データセットの本質的な次元を近似した場合のみ、逆例に対する脆弱性を低減する。
論文 参考訳(メタデータ) (2020-06-18T22:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。