論文の概要: Daunce: Data Attribution through Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2505.23223v1
- Date: Thu, 29 May 2025 08:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.755553
- Title: Daunce: Data Attribution through Uncertainty Estimation
- Title(参考訳): Daunce: 不確実性推定によるデータ属性
- Authors: Xingyuan Pan, Chenlu Ye, Joseph Melkonian, Jiaqi W. Ma, Tong Zhang,
- Abstract要約: トレーニングデータ属性法は、特定のテストデータに対して、どのトレーニング例がモデルの予測に最も影響するかを特定することを目的としている。
勾配に基づくTDA法は勾配と2次情報に依存し、大規模に適用性を制限する。
本稿では,不確実性推定による簡便かつ効果的なデータ帰属手法であるDaunceを紹介する。
- 参考スコア(独自算出の注目度): 7.809316632545256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training data attribution (TDA) methods aim to identify which training examples influence a model's predictions on specific test data most. By quantifying these influences, TDA supports critical applications such as data debugging, curation, and valuation. Gradient-based TDA methods rely on gradients and second-order information, limiting their applicability at scale. While recent random projection-based methods improve scalability, they often suffer from degraded attribution accuracy. Motivated by connections between uncertainty and influence functions, we introduce Daunce - a simple yet effective data attribution approach through uncertainty estimation. Our method operates by fine-tuning a collection of perturbed models and computing the covariance of per-example losses across these models as the attribution score. Daunce is scalable to large language models (LLMs) and achieves more accurate attribution compared to existing TDA methods. We validate Daunce on tasks ranging from vision tasks to LLM fine-tuning, and further demonstrate its compatibility with black-box model access. Applied to OpenAI's GPT models, our method achieves, to our knowledge, the first instance of data attribution on proprietary LLMs.
- Abstract(参考訳): トレーニングデータ属性(TDA)手法は、特定のテストデータに対して、どのトレーニング例がモデルの予測に最も影響するかを特定することを目的としている。
これらの影響を定量化することで、TDAはデータデバッグ、キュレーション、評価といった重要なアプリケーションをサポートする。
勾配に基づくTDA法は勾配と2次情報に依存し、大規模に適用性を制限する。
最近のランダムプロジェクションベースの手法はスケーラビリティを向上させるが、しばしば劣化した帰属の精度に悩まされる。
不確実性と影響関数の関係を動機として,不確実性推定による簡便かつ効果的なデータ帰属手法であるDaunceを導入する。
提案手法は,摂動モデルの集合を微調整し,各モデル間の損失の共分散を属性スコアとして計算する。
Daunceは大規模言語モデル(LLM)にスケーラブルで、既存のTDAメソッドよりも正確な属性を実現している。
視覚タスクからLLMファインチューニングまでのタスクにおけるDaunceの有効性を検証し、ブラックボックスモデルアクセスとの互換性をさらに実証する。
OpenAI の GPT モデルに適用することで,私たちの知識を活かし,プロプライエタリな LLM に対するデータ属性の最初の例とする。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Intriguing Properties of Data Attribution on Diffusion Models [33.77847454043439]
データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。
データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
論文 参考訳(メタデータ) (2023-11-01T13:00:46Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。