論文の概要: Distributional Training Data Attribution: What do Influence Functions Sample?
- arxiv url: http://arxiv.org/abs/2506.12965v3
- Date: Sat, 25 Oct 2025 12:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.652649
- Title: Distributional Training Data Attribution: What do Influence Functions Sample?
- Title(参考訳): 分散トレーニングデータ属性: 関数のサンプルはどのようなものか?
- Authors: Bruno Mlodozeniec, Isaac Reid, Sam Power, David Krueger, Murat Erdogdu, Richard E. Turner, Roger Grosse,
- Abstract要約: 分散学習データ属性(d-TDA)を導入する。
d-TDAの目標は、モデル出力の分布がデータセットに依存するかを予測することである。
影響関数 (IF) は「秘密分布」である。
- 参考スコア(独自算出の注目度): 25.257922996567178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Randomness is an unavoidable part of training deep learning models, yet something that traditional training data attribution algorithms fail to rigorously account for. They ignore the fact that, due to stochasticity in the initialisation and batching, training on the same dataset can yield different models. In this paper, we address this shortcoming through introducing distributional training data attribution (d-TDA), the goal of which is to predict how the distribution of model outputs (over training runs) depends upon the dataset. Intriguingly, we find that influence functions (IFs), a popular data attribution tool, are 'secretly distributional': they emerge from our framework as the limit to unrolled differentiation, without requiring restrictive convexity assumptions. This provides a new perspective on the effectiveness of IFs in deep learning. We demonstrate the practical utility of d-TDA in experiments, including improving data pruning for vision transformers and identifying influential examples with diffusion models.
- Abstract(参考訳): ランダム性(Randomness)は、ディープラーニングモデルのトレーニングでは避けられない部分ですが、従来のトレーニングデータ属性アルゴリズムでは、厳格に説明できない部分です。
彼らは、初期化とバッチ化の確率性のため、同じデータセットでのトレーニングが異なるモデルが得られるという事実を無視している。
本稿では、モデル出力の分布がデータセットにどのように依存するかを予測することを目的として、分散トレーニングデータ属性(d-TDA)を導入することで、この欠点に対処する。
興味深いことに、一般的なデータ属性ツールであるインフルエンス関数(IF)は「秘かに分布的」であることがわかった。
これにより、深層学習におけるIFの有効性に関する新たな視点が得られる。
本稿では、視覚変換器のデータプルーニングの改善や、拡散モデルによる影響例の同定など、実験におけるd-TDAの実用性を実証する。
関連論文リスト
- Robust training of implicit generative models for multivariate and heavy-tailed distributions with an invariant statistical loss [0.4249842620609682]
我々は、引用2024トレーニングで導入されたISL(textitinvariant statistics loss)法に基づいて構築する。
重み付きおよび多変量データ分散を扱うように拡張する。
ジェネレーティブ・ジェネレーティブ・モデリングにおけるその性能を評価し、ジェネレーティブ・ディバイサル・ネットワーク(GAN)の事前学習技術としての可能性を探る。
論文 参考訳(メタデータ) (2024-10-29T10:27:50Z) - Ask Your Distribution Shift if Pre-Training is Right for You [67.90850628695563]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Mixture Data for Training Cannot Ensure Out-of-distribution Generalization [21.801115344132114]
トレーニングデータのサイズが大きくなると、必ずしもテスト一般化誤差が減少するとは限らない。
本研究では,OODデータを混合学習データの凸内外にあるデータとして定量的に再定義する。
新たなリスクバウンドの証明は、よく訓練されたモデルの有効性が、目に見えないデータに対して保証されることに同意する。
論文 参考訳(メタデータ) (2023-12-25T11:00:38Z) - Preserving Fairness in AI under Domain Shift [15.820660013260584]
AIの公正性を保証するための既存のアルゴリズムは、単発トレーニング戦略を使用している。
ドメインシフトの下で公正な状態を維持するために公正なモデルを適用するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-01-29T06:13:40Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。