論文の概要: MAGIC: Near-Optimal Data Attribution for Deep Learning
- arxiv url: http://arxiv.org/abs/2504.16430v1
- Date: Wed, 23 Apr 2025 05:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.010567
- Title: MAGIC: Near-Optimal Data Attribution for Deep Learning
- Title(参考訳): MAGIC: ディープラーニングのためのほぼ最適なデータ属性
- Authors: Andrew Ilyas, Logan Engstrom,
- Abstract要約: 予測データ属性の目標は、トレーニングデータポイントのセットの追加や削除がモデル予測にどのように影響するかを見積もることである。
古典的手法と最近の手法を組み合わせた新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 21.02533793521274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of predictive data attribution is to estimate how adding or removing a given set of training datapoints will affect model predictions. In convex settings, this goal is straightforward (i.e., via the infinitesimal jackknife). In large-scale (non-convex) settings, however, existing methods are far less successful -- current methods' estimates often only weakly correlate with ground truth. In this work, we present a new data attribution method (MAGIC) that combines classical methods and recent advances in metadifferentiation to (nearly) optimally estimate the effect of adding or removing training data on model predictions.
- Abstract(参考訳): 予測データ属性の目標は、与えられたトレーニングデータポイントのセットの追加や削除がモデル予測にどのように影響するかを見積もることである。
凸設定では、このゴールは単純である(つまり無限小のジャックナイフを通して)。
しかし、大規模な(非凸的な)設定では、既存のメソッドははるかに成功していない。
本研究では,従来の手法とメタ微分の最近の進歩を組み合わせた新しいデータ属性法(MAGIC)について,モデル予測に対するトレーニングデータの追加や削除の効果を最適に推定する。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Random features models: a way to study the success of naive imputation [0.0]
これは、欠落したデータを扱うための最初の使い易いテクニックである。
最近の研究は、このバイアスが高次元線形予測器の文脈で低いことを示唆している。
本稿は, 偏見が無視可能であり, 意外なナイーブな計算も極めて低次元で関連している,という直感を裏付けるものである。
論文 参考訳(メタデータ) (2024-02-06T09:37:06Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How to Learn when Data Gradually Reacts to Your Model [10.074466859579571]
我々は,これらの効果が存在する場合でも,性能損失を最小限に抑えるための新しいアルゴリズム Stateful Performative Gradient Descent (Stateful PerfGD) を提案する。
実験の結果, Stateful PerfGD は従来の最先端手法よりもかなり優れていたことが確認された。
論文 参考訳(メタデータ) (2021-12-13T22:05:26Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。