Fugu-MT 論文翻訳(概要): CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning

論文の概要: CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning

arxiv url: http://arxiv.org/abs/2406.11730v1
Date: Mon, 17 Jun 2024 16:48:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 13:43:30.066312
Title: CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning
Title（参考訳）: CHG共有: 信頼できる機械学習に向けた効率的なデータ評価と選択
Authors: Huaiguang Cai,
Abstract要約: 本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding the decision-making process of machine learning models is crucial for ensuring trustworthy machine learning. Data Shapley, a landmark study on data valuation, has significantly advanced this understanding by assessing the contribution of each datum to model accuracy. However, the resource-intensive and time-consuming nature of multiple model retraining poses significant challenges for applying Data Shapley to large datasets. To address this, we propose the CHG (Conduct of Hardness and Gradient) score, which approximates the utility of each data subset on model accuracy during a single model training. By deriving the closed-form expression of the Shapley value for each data point under the CHG score utility function, we reduce the computational complexity to the equivalent of a single model retraining, an exponential improvement over existing methods. Additionally, we employ CHG Shapley for real-time data selection, demonstrating its effectiveness in identifying high-value and noisy data. CHG Shapley facilitates trustworthy model training through efficient data valuation, introducing a novel data-centric perspective on trustworthy machine learning.
Abstract（参考訳）: 機械学習モデルの意思決定プロセスを理解することは、信頼できる機械学習を保証するために不可欠である。データバリュエーションに関する目覚ましい研究であるData Shapleyは、各ダタムの精度モデルへの貢献を評価することによって、この理解を大幅に進歩させた。しかし、複数のモデル再トレーニングのリソース集約的で時間を要する性質は、大規模なデータセットにData Shapleyを適用する上で大きな課題となっている。そこで本研究では,CHG(Conduct of Hardness and Gradient)スコアを提案する。 CHGスコアユーティリティ関数の下で各データポイントに対するShapley値のクローズドフォーム式を導出することにより、計算複雑性を1つのモデル再トレーニングと同程度に減らし、既存の手法よりも指数関数的に改善する。さらに、リアルタイムデータ選択にCHG Shapleyを使用し、その高値および雑音データ同定の有効性を実証する。 CHG Shapleyは、効率的なデータバリュエーションを通じて信頼できるモデルトレーニングを促進し、信頼できる機械学習に関する新しいデータ中心の視点を導入する。

関連論文リスト

Chunked Data Shapley: A Scalable Dataset Quality Assessment for Machine Learning [0.0]
我々は、データセットの高品質なデータ計算であるチャンクド・データ・シェープ(C-DaSh)を識別するために、Data Shapleyアプローチを提案する。 C-DaShは、データセットを管理可能なチャンクに分類し、最適化された選択と勾配降下を使って各チャンクのコントリビューションを推定する。 C-DaShは計算効率(80倍から2300倍の高速化)と低品質なデータ領域の検出精度の両方において既存のShapley近似よりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-22T09:40:58Z)
Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文参考訳（メタデータ） (2025-05-22T02:46:03Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits [37.79841753524388]
Data Shapleyはデータ評価に対する原則的なアプローチを提供し、データ中心機械学習(ML)研究において重要な役割を果たす。データ選択は、Data Shapleyの標準的な応用と見なされているが、そのデータ選択性能は、文献における設定間で一貫性がないことが示されている。我々は仮説テストフレームワークを導入し、Data Shapleyのパフォーマンスがユーティリティ関数に特定の制約を加えることなくランダムな選択に勝ることを示す。
論文参考訳（メタデータ） (2024-05-06T21:46:10Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文参考訳（メタデータ） (2024-02-14T16:21:47Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文参考訳（メタデータ） (2023-11-09T13:15:36Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Exploring Data Redundancy in Real-world Image Classification through Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文参考訳（メタデータ） (2023-06-25T03:31:05Z)
Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文参考訳（メタデータ） (2023-06-12T15:09:13Z)
RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文参考訳（メタデータ） (2023-05-23T14:38:33Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。