論文の概要: Fast-DataShapley: Neural Modeling for Training Data Valuation
- arxiv url: http://arxiv.org/abs/2506.05281v1
- Date: Thu, 05 Jun 2025 17:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.855902
- Title: Fast-DataShapley: Neural Modeling for Training Data Valuation
- Title(参考訳): Fast-DataShapley: トレーニングデータ評価のためのニューラルネットワーク
- Authors: Haifeng Sun, Yu Xiong, Runze Wu, Xinyu Cai, Changjie Fan, Lan Zhang, Xiang-Yang Li,
- Abstract要約: 実時間推論速度で再利用可能な説明器モデルをトレーニングするためのワンパス学習手法であるFast-DataShapleyを提案する。
新しいテストサンプルが与えられた場合、トレーニングデータのShapley値を計算するために再トレーニングは必要ない。
- 参考スコア(独自算出の注目度): 40.630258021732544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The value and copyright of training data are crucial in the artificial intelligence industry. Service platforms should protect data providers' legitimate rights and fairly reward them for their contributions. Shapley value, a potent tool for evaluating contributions, outperforms other methods in theory, but its computational overhead escalates exponentially with the number of data providers. Recent works based on Shapley values attempt to mitigate computation complexity by approximation algorithms. However, they need to retrain for each test sample, leading to intolerable costs. We propose Fast-DataShapley, a one-pass training method that leverages the weighted least squares characterization of the Shapley value to train a reusable explainer model with real-time reasoning speed. Given new test samples, no retraining is required to calculate the Shapley values of the training data. Additionally, we propose three methods with theoretical guarantees to reduce training overhead from two aspects: the approximate calculation of the utility function and the group calculation of the training data. We analyze time complexity to show the efficiency of our methods. The experimental evaluations on various image datasets demonstrate superior performance and efficiency compared to baselines. Specifically, the performance is improved to more than 2.5 times, and the explainer's training speed can be increased by two orders of magnitude.
- Abstract(参考訳): トレーニングデータの価値と著作権は、人工知能産業において不可欠である。
サービスプラットフォームは、データ提供者の正当な権利を保護し、その貢献に対して相当な報酬を与えるべきである。
コントリビューションを評価する強力なツールであるShapley Valueは、理論上の他のメソッドよりも優れているが、その計算オーバーヘッドはデータプロバイダの数とともに指数関数的に増大する。
Shapley値に基づく最近の研究は、近似アルゴリズムによる計算複雑性の軽減を試みている。
しかし、テストサンプルごとに再トレーニングする必要があるため、許容できないコストが発生する。
我々は,一パス学習法であるFast-DataShapleyを提案する。これは,Shapley値の重み付け最小二乗特性を利用して,実時間推論速度で再利用可能な説明器モデルを訓練する。
新しいテストサンプルが与えられた場合、トレーニングデータのShapley値を計算するために再トレーニングは必要ない。
さらに,実効関数の近似計算とトレーニングデータの群計算の2つの側面から,理論的保証のある3つの手法を提案する。
我々は,手法の効率性を示すために,時間的複雑さを分析する。
様々な画像データセットに対する実験的評価は,ベースラインに比べて優れた性能と効率を示す。
具体的には、パフォーマンスを2.5倍以上に向上させ、説明者のトレーニング速度を2桁に向上させることができる。
関連論文リスト
- Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-22T02:46:03Z) - Same accuracy, twice as fast: continuous training surpasses retraining from scratch [40.678628069564745]
連続学習は、モデルが学習したデータのパフォーマンスを損なうことなく、新しいデータセットに適応できるようにすることを目的としている。
場合によっては、以前のデータでトレーニングされたモデルを放棄し、両方のデータセットでスクラッチから新しいモデルを再トレーニングすることで、両方のデータセットのパフォーマンスが向上する。
評価フレームワークは,これらの手法をスクラッチからトレーニング性能を維持したり,超えたりしながら,計算的貯蓄量を定量化する。
論文 参考訳(メタデータ) (2025-02-28T15:28:12Z) - OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。
提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits [7.335578524351567]
データクリーニングは、トレーニングデータセットから有害なインスタンスのセットを取り除き、モデルパフォーマンスを改善することを目的としている。
Data Shapleyは、モデルパフォーマンスに対する各インスタンスのコントリビューションを評価するための、理論的に保証される一般的な方法である。
本稿では、閾値帯域幅アルゴリズムを用いて、低データのShapley値を持つインスタンスのサブセットを高速に識別する反復手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T04:17:48Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Optimizing Data Shapley Interaction Calculation from O(2^n) to O(t n^2)
for KNN models [2.365702128814616]
STI-KNNは、O(t n2)時間におけるKNNモデルに対する正確なペア相互作用シェープ値を計算する革新的なアルゴリズムである。
STI-KNNを使用することで、個々のデータポイントの価値を効率よく正確に評価することができ、トレーニング結果が改善され、最終的には人工知能アプリケーションの有効性が向上する。
論文 参考訳(メタデータ) (2023-04-02T06:15:19Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。