Fugu-MT 論文翻訳(概要): EcoVal: An Efficient Data Valuation Framework for Machine Learning

論文の概要: EcoVal: An Efficient Data Valuation Framework for Machine Learning

arxiv url: http://arxiv.org/abs/2402.09288v2
Date: Thu, 15 Feb 2024 16:30:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 12:05:46.552716
Title: EcoVal: An Efficient Data Valuation Framework for Machine Learning
Title（参考訳）: EcoVal: 機械学習のための効率的なデータ評価フレームワーク
Authors: Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Hong Ming Tan, Bowei Chen, Mohan Kankanhalli
Abstract要約: 機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
参考スコア（独自算出の注目度）: 12.27149772246726
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Quantifying the value of data within a machine learning workflow can play a pivotal role in making more strategic decisions in machine learning initiatives. The existing Shapley value based frameworks for data valuation in machine learning are computationally expensive as they require considerable amount of repeated training of the model to obtain the Shapley value. In this paper, we introduce an efficient data valuation framework EcoVal, to estimate the value of data for machine learning models in a fast and practical manner. Instead of directly working with individual data sample, we determine the value of a cluster of similar data points. This value is further propagated amongst all the member cluster points. We show that the overall data value can be determined by estimating the intrinsic and extrinsic value of each data. This is enabled by formulating the performance of a model as a \textit{production function}, a concept which is popularly used to estimate the amount of output based on factors like labor and capital in a traditional free economic market. We provide a formal proof of our valuation technique and elucidate the principles and mechanisms that enable its accelerated performance. We demonstrate the real-world applicability of our method by showcasing its effectiveness for both in-distribution and out-of-sample data. This work addresses one of the core challenges of efficient data valuation at scale in machine learning models.
Abstract（参考訳）: 機械学習ワークフローにおけるデータの価値の定量化は、機械学習イニシアチブにおいて、より戦略的決定を行う上で重要な役割を果たす。機械学習におけるデータ評価のための既存のshapley値ベースのフレームワークは、shapley値を得るためにモデルを繰り返し訓練する必要があるため、計算コストが高い。本稿では,機械学習モデルにおけるデータの価値を高速かつ実用的な方法で推定する効率的なデータ評価フレームワークecovalを提案する。個々のデータサンプルを直接扱う代わりに、類似したデータポイントのクラスタの値を決定します。この値は、すべてのメンバークラスタポイントにさらに伝播する。その結果,各データの固有値および余剰値を推定することで,総合的なデータ値を決定することができることがわかった。これは、伝統的な自由経済市場における労働や資本といった要因に基づいて生産量を見積もるために広く用いられる概念である、 \textit{production function} としてモデルのパフォーマンスを定式化することによって実現される。我々は,評価手法の形式的証明を提供し,その高速化を実現する原理とメカニズムを明らかにする。本手法の現実的な適用性は,分布内データとサンプル外データの両方に対して有効性を示すことで実証する。この研究は、機械学習モデルにおいて、大規模で効率的なデータバリュエーションのコア課題の1つに対処する。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文参考訳（メタデータ） (2025-05-22T02:46:03Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文参考訳（メタデータ） (2024-10-30T17:20:10Z)
Reframing Data Value for Large Language Models Through the Lens of Plausibility [6.697702130929693]
本稿では,言語モデルにおけるデータ値問題に対する別の視点を提案する。計算的に抽出可能な新しい値関数を開発し、証明可能な性質を持つ第一原理から導出する。
論文参考訳（メタデータ） (2024-08-30T22:32:24Z)
CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
論文参考訳（メタデータ） (2024-06-17T16:48:31Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Is Data Valuation Learnable and Interpretable? [3.9325957466009203]
現在のデータ評価手法は、出力値の解釈可能性を無視している。この研究は、データバリュエーションは学習可能か、解釈可能か、という重要な疑問に答えることを目的としている。
論文参考訳（メタデータ） (2024-06-03T08:13:47Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文参考訳（メタデータ） (2023-06-12T15:09:13Z)
Striving for data-model efficiency: Identifying data externalities on group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文参考訳（メタデータ） (2022-11-11T16:48:27Z)
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning [18.65808473565554]
本稿では, 雑音モデルの性能スコアに対するデータ評価のロバスト性について検討する。データ価値の概念の堅牢性を測定する安全マージンの概念を導入する。また,Banzhaf値がすべての半値の中で最大の安全性マージンを達成していることを示す。
論文参考訳（メタデータ） (2022-05-30T23:44:09Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。