論文の概要: Outlier Gradient Analysis: Efficiently Improving Deep Learning Model Performance via Hessian-Free Influence Functions
- arxiv url: http://arxiv.org/abs/2405.03869v2
- Date: Sun, 12 May 2024 20:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 20:52:15.528009
- Title: Outlier Gradient Analysis: Efficiently Improving Deep Learning Model Performance via Hessian-Free Influence Functions
- Title(参考訳): Outlier Gradient Analysis: ヘシアンフリーインフルエンス関数によるディープラーニングモデルの性能向上
- Authors: Anshuman Chhabra, Bo Li, Jian Chen, Prasant Mohapatra, Hongfu Liu,
- Abstract要約: 影響関数は、各データサンプルがモデル予測に与える影響を評価するための堅牢なツールを提供する。
本稿では,データ中心のシナリオ – トリミングアウトレーヤ – と統合フレームワークにおける両課題に焦点を当てる。
- 参考スコア(独自算出の注目度): 36.05242956018461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Influence functions offer a robust framework for assessing the impact of each training data sample on model predictions, serving as a prominent tool in data-centric learning. Despite their widespread use in various tasks, the strong convexity assumption on the model and the computational cost associated with calculating the inverse of the Hessian matrix pose constraints, particularly when analyzing large deep models. This paper focuses on a classical data-centric scenario--trimming detrimental samples--and addresses both challenges within a unified framework. Specifically, we establish an equivalence transformation between identifying detrimental training samples via influence functions and outlier gradient detection. This transformation not only presents a straightforward and Hessian-free formulation but also provides profound insights into the role of the gradient in sample impact. Moreover, it relaxes the convexity assumption of influence functions, extending their applicability to non-convex deep models. Through systematic empirical evaluations, we first validate the correctness of our proposed outlier gradient analysis on synthetic datasets and then demonstrate its effectiveness in detecting mislabeled samples in vision models, selecting data samples for improving performance of transformer models for natural language processing, and identifying influential samples for fine-tuned Large Language Models.
- Abstract(参考訳): 影響関数は、各トレーニングデータサンプルがモデル予測に与える影響を評価するための堅牢なフレームワークを提供する。
様々なタスクで広く使われているにもかかわらず、モデルに対する強い凸性仮定と、ヘッセン行列の逆数を計算することに関連する計算コストは、特に大きな深層モデルを分析する際に制約となる。
本稿では、古典的なデータ中心のシナリオ、トリミング・デトリメンタル・サンプルに焦点を当て、統一されたフレームワークにおける両方の課題に対処する。
具体的には、影響関数と外乱勾配検出による有害トレーニングサンプルの同定の同値変換を確立する。
この変換は単純でヘッセン自由な定式化を提示するだけでなく、試料衝突における勾配の役割について深い洞察を与える。
さらに、影響関数の凸性仮定を緩和し、その適用性を非凸深度モデルに拡張する。
系統的な実験的な評価を通じて,提案した合成データセットのアウトリー勾配解析の正しさを検証し,その効果を視覚モデルにおける誤ラベルサンプルの検出,自然言語処理におけるトランスフォーマーモデルの性能向上のためのデータサンプルの選択,微調整された大規模言語モデルにおける影響力のあるサンプルの同定などに適用した。
関連論文リスト
- Complementary Learning for Real-World Model Failure Detection [15.779651238128562]
そこでは、異なる訓練パラダイムから学習特性を用いてモデルエラーを検出する。
我々は,制御的かつ自己管理的な方法で,点群における意味的および予測的動作ラベルを学習することにより,我々のアプローチを実証する。
大規模定性解析を行い、ライダー点雲にラベル付き異常を持つ最初のデータセットであるLidarCODAを提示する。
論文 参考訳(メタデータ) (2024-07-19T13:36:35Z) - Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。
本稿では,Trac として知られる特定の有効近似法を再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文 参考訳(メタデータ) (2024-05-25T03:43:36Z) - The Importance of Model Inspection for Better Understanding Performance Characteristics of Graph Neural Networks [15.569758991934934]
脳形状分類タスクに適用したグラフニューラルネットワークの特徴学習特性に対するモデル選択の影響について検討する。
モデルの異なるレイヤに機能の埋め込みを組み込むことで、かなりの違いが見つかります。
論文 参考訳(メタデータ) (2024-05-02T13:26:18Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。