論文の概要: Rescaled Influence Functions: Accurate Data Attribution in High Dimension
- arxiv url: http://arxiv.org/abs/2506.06656v1
- Date: Sat, 07 Jun 2025 04:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.387392
- Title: Rescaled Influence Functions: Accurate Data Attribution in High Dimension
- Title(参考訳): 再スケール影響関数:高次元における正確なデータ属性
- Authors: Ittai Rubinstein, Samuel B. Hopkins,
- Abstract要約: 本稿では,データ帰属のための新しいツールであるRescaled Influence Function (RIF) について述べる。
実世界のデータセットでIFとRIFを比較し,実世界の予測精度が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 6.812390750464419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How does the training data affect a model's behavior? This is the question we seek to answer with data attribution. The leading practical approaches to data attribution are based on influence functions (IF). IFs utilize a first-order Taylor approximation to efficiently predict the effect of removing a set of samples from the training set without retraining the model, and are used in a wide variety of machine learning applications. However, especially in the high-dimensional regime (# params $\geq \Omega($# samples$)$), they are often imprecise and tend to underestimate the effect of sample removals, even for simple models such as logistic regression. We present rescaled influence functions (RIF), a new tool for data attribution which can be used as a drop-in replacement for influence functions, with little computational overhead but significant improvement in accuracy. We compare IF and RIF on a range of real-world datasets, showing that RIFs offer significantly better predictions in practice, and present a theoretical analysis explaining this improvement. Finally, we present a simple class of data poisoning attacks that would fool IF-based detections but would be detected by RIF.
- Abstract(参考訳): トレーニングデータはモデルの振る舞いにどのように影響しますか?
これは私たちがデータ属性で答えようとしている質問です。
データ属性に対する主要な実践的アプローチは、影響関数(IF)に基づいている。
IFは1次テイラー近似を用いて、モデルを再トレーニングすることなくトレーニングセットからサンプルの集合を除去する効果を効率的に予測し、幅広い機械学習アプリケーションで使用される。
しかし、特に高次元のレジーム(# params $\geq \Omega($# sample$)$)では、それらはしばしば不正確であり、ロジスティック回帰のような単純なモデルであってもサンプル除去の効果を過小評価する傾向がある。
本稿では,データ帰属のための新しいツールであるRescaled Influence Function (RIF)について述べる。
実世界のデータセットでIFとRIFを比較し、実世界の予測精度が大幅に向上していることを示し、この改善を説明する理論的分析を提示する。
最後に、IFベースの検出を騙すが、RIFによって検出される、単純な種類のデータ中毒攻撃を示す。
関連論文リスト
- IF-GUIDE: Influence Function-Guided Detoxification of LLMs [53.051109450536885]
本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。
本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
論文 参考訳(メタデータ) (2025-06-02T15:32:36Z) - Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression [0.5831737970661137]
本稿では,欠陥に対するトレーニングデータをテストし,その後の機械学習モデルのトレーニングのための信頼性の高い基盤構造を確立する方法を提案する。
我々の手法は、テスト条件'をデータ内のパターンを記述する条件とすることで、従来の統計的テストの能力を拡張します。
デモと実験のためのオープンソース実装を提供しています。
論文 参考訳(メタデータ) (2025-03-24T09:52:36Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and
Diffusion Models [31.65198592956842]
本稿では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。
理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。
RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
論文 参考訳(メタデータ) (2023-10-02T04:59:19Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。