論文の概要: Exploring Training Data Attribution under Limited Access Constraints
- arxiv url: http://arxiv.org/abs/2509.12581v1
- Date: Tue, 16 Sep 2025 02:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.839791
- Title: Exploring Training Data Attribution under Limited Access Constraints
- Title(参考訳): 限られたアクセス制約下でのトレーニングデータ属性の探索
- Authors: Shiyuan Zhang, Junwei Deng, Juhan Bae, Jiaqi Ma,
- Abstract要約: トレーニングデータ属性(TDA)は、個々のトレーニングデータポイントがモデル予測に与える影響を理解する上で重要な役割を果たす。
TDA法は、フルモデルアクセスと高い計算コストに依存しているため、しばしば制約される。
これは、実用アプリケーションにおけるTDAの広範な採用に重大な課題をもたらす。
- 参考スコア(独自算出の注目度): 13.908966198139046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data attribution (TDA) plays a critical role in understanding the influence of individual training data points on model predictions. Gradient-based TDA methods, popularized by \textit{influence function} for their superior performance, have been widely applied in data selection, data cleaning, data economics, and fact tracing. However, in real-world scenarios where commercial models are not publicly accessible and computational resources are limited, existing TDA methods are often constrained by their reliance on full model access and high computational costs. This poses significant challenges to the broader adoption of TDA in practical applications. In this work, we present a systematic study of TDA methods under various access and resource constraints. We investigate the feasibility of performing TDA under varying levels of access constraints by leveraging appropriately designed solutions such as proxy models. Besides, we demonstrate that attribution scores obtained from models without prior training on the target dataset remain informative across a range of tasks, which is useful for scenarios where computational resources are limited. Our findings provide practical guidance for deploying TDA in real-world environments, aiming to improve feasibility and efficiency under limited access.
- Abstract(参考訳): トレーニングデータ属性(TDA)は、個々のトレーニングデータポイントがモデル予測に与える影響を理解する上で重要な役割を果たす。
グラディエントベースのTDA法は,データ選択やデータクリーニング,データ経済学,事実追跡などに広く応用されている。
しかし、商用モデルが一般にアクセスできず、計算資源が限られている現実のシナリオでは、既存のTDA手法はフルモデルアクセスと高い計算コストに依存しているため、しばしば制約される。
これは、実用アプリケーションにおけるTDAの広範な採用に重大な課題をもたらす。
本研究では,様々なアクセス制約および資源制約下でのTDA手法の体系的研究について述べる。
本稿では,プロキシモデルなどの適切な設計のソリューションを活用することで,アクセス制約の異なるTDAの実行の実現可能性について検討する。
さらに,対象データセットの事前トレーニングを伴わないモデルから得られた帰属スコアが,計算資源が限定されたシナリオにおいて有用であることを示す。
本研究は, 実環境におけるTDAの展開に関する実践的ガイダンスであり, 限られたアクセス環境下での実現可能性と効率の向上を目的としている。
関連論文リスト
- Daunce: Data Attribution through Uncertainty Estimation [7.809316632545256]
トレーニングデータ属性法は、特定のテストデータに対して、どのトレーニング例がモデルの予測に最も影響するかを特定することを目的としている。
勾配に基づくTDA法は勾配と2次情報に依存し、大規模に適用性を制限する。
本稿では,不確実性推定による簡便かつ効果的なデータ帰属手法であるDaunceを紹介する。
論文 参考訳(メタデータ) (2025-05-29T08:08:38Z) - What Has Been Overlooked in Contrastive Source-Free Domain Adaptation: Leveraging Source-Informed Latent Augmentation within Neighborhood Context [28.634315143647385]
ソースフリードメイン適応(SFDA)は、ラベル付きデータセットを使用してトレーニングされたモデルを適用して、ラベルなしデータセットで効果的に実行する。
この適応は、この2つの領域の間にデータ分布のかなりの相違が存在する場合、特に重要である。
対照的なSFDAに適した,単純かつ高効率な潜伏増強法を提案する。
論文 参考訳(メタデータ) (2024-12-18T20:09:46Z) - Unveiling the Superior Paradigm: A Comparative Study of Source-Free Domain Adaptation and Unsupervised Domain Adaptation [52.36436121884317]
Source-Free Domain Adaptation (SFDA) は、現実のシナリオにおいて、Unsupervised Domain Adaptation (UDA) よりも一般的に優れていることを示す。
SFDAは、時間効率、ストレージ要件、対象とする学習目標、負の移動リスクの低減、過度な適合に対する堅牢性の向上といった利点を提供している。
利用可能なソースデータをマルチSFDA手法に効果的に統合する新しい重み推定法を提案する。
論文 参考訳(メタデータ) (2024-11-24T13:49:29Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Open-Set Domain Adaptation with Visual-Language Foundation Models [51.49854335102149]
非教師なしドメイン適応(UDA)は、ソースドメインからラベルのないデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。
オープンセットドメイン適応(ODA)は、トレーニングフェーズ中にこれらのクラスを識別する潜在的なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-07-30T11:38:46Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Domain Alignment Meets Fully Test-Time Adaptation [24.546705919244936]
デプロイされたMLモデルの基本的な要件は、トレーニングとは異なるテストディストリビューションから引き出されたデータに一般化することである。
本稿では,元のソースデータへのアクセスを制限した,この問題の難易度に焦点をあてる。
ソースデータ全体にアクセスする必要性を緩和し,UDAとFTTAを橋渡しする新しいアプローチCATTAnを提案する。
論文 参考訳(メタデータ) (2022-07-09T03:17:19Z) - Towards Inheritable Models for Open-Set Domain Adaptation [56.930641754944915]
本稿では、将来、ソースデータセットが存在しない場合の適応を容易にするために、ソース学習モデルを用いた実用的なドメイン適応パラダイムを提案する。
本稿では,ソースデータがない場合でも,対象領域に対して最適なソースモデルの選択を可能にするために,継承可能性の定量化を目的とする手法を提案する。
論文 参考訳(メタデータ) (2020-04-09T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。