論文の概要: CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning
- arxiv url: http://arxiv.org/abs/2406.11730v3
- Date: Wed, 22 Jan 2025 17:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:28:20.334599
- Title: CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning
- Title(参考訳): CHG共有: 信頼できる機械学習に向けた効率的なデータ評価と選択
- Authors: Huaiguang Cai,
- Abstract要約: そこで本研究では,各トレーニング時代のモデル性能における各データサブセットの有用性を近似したCHG(Compound of Hardness and Gradient)ユーティリティ関数を提案する。
CHGユーティリティ関数を用いて各データポイント毎の閉形式のShapley値を導出することにより、計算複雑性を1つのモデル再学習に還元する。
さらに、CHG Shapleyをリアルタイムデータ選択に利用し、標準データセット、ラベルノイズデータセット、クラス不均衡データセットの3つの設定で実験を行います。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Understanding the decision-making process of machine learning models is crucial for ensuring trustworthy machine learning. Data Shapley, a landmark study on data valuation, advances this understanding by assessing the contribution of each datum to model performance. However, the resource-intensive and time-consuming nature of multiple model retraining poses challenges for applying Data Shapley to large datasets. To address this, we propose the CHG (compound of Hardness and Gradient) utility function, which approximates the utility of each data subset on model performance in every training epoch. By deriving the closed-form Shapley value for each data point using the CHG utility function, we reduce the computational complexity to that of a single model retraining, achieving a quadratic improvement over existing marginal contribution-based methods. We further leverage CHG Shapley for real-time data selection, conducting experiments across three settings: standard datasets, label noise datasets, and class imbalance datasets. These experiments demonstrate its effectiveness in identifying high-value and noisy data. By enabling efficient data valuation, CHG Shapley promotes trustworthy model training through a novel data-centric perspective. Our codes are available at https://github.com/caihuaiguang/CHG-Shapley-for-Data-Valuation and https://github.com/caihuaiguang/CHG-Shapley-for-Data-Selection.
- Abstract(参考訳): 機械学習モデルの意思決定プロセスを理解することは、信頼できる機械学習を保証するために不可欠である。
データバリュエーションに関する目覚ましい研究であるData Shapleyは、各ダトゥムのモデルパフォーマンスへの貢献を評価することによって、この理解を深めている。
しかしながら、複数のモデル再トレーニングのリソース集約的で時間を要する性質は、大規模なデータセットにData Shapleyを適用する上での課題を提起する。
そこで本研究では,各トレーニング時代のモデル性能における各データサブセットの有用性を近似したCHGユーティリティ関数を提案する。
CHGユーティリティ関数を用いて各データポイント毎の閉形式シェープリー値を導出することにより、計算複雑性を1つのモデル再学習に還元し、既存の限界寄与法よりも2次的に改善する。
さらに、CHG Shapleyをリアルタイムデータ選択に利用し、標準データセット、ラベルノイズデータセット、クラス不均衡データセットの3つの設定で実験を行います。
これらの実験は、高価値でノイズの多いデータを識別する効果を実証している。
効率的なデータバリュエーションを可能にすることで、CHG Shapleyは、新しいデータ中心の視点を通じて、信頼できるモデルトレーニングを促進する。
私たちのコードはhttps://github.com/caihuaiguang/CHG-Shapley-for-Data-Valuationとhttps://github.com/caihuaiguang/CHG-Shapley-for-Data-Selectionで利用可能です。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。
機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文 参考訳(メタデータ) (2024-02-14T16:21:47Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。