論文の概要: A case for data valuation transparency via DValCards
- arxiv url: http://arxiv.org/abs/2506.23349v1
- Date: Sun, 29 Jun 2025 17:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.841561
- Title: A case for data valuation transparency via DValCards
- Title(参考訳): DValCardsによるデータバリュエーション透明性の一事例
- Authors: Keziah Naggita, Julienne LaChance,
- Abstract要約: データアセスメントのメトリクスは、単純なアルゴリズム設計の選択の下で本質的にバイアスを受け、不安定であることを示す。
我々は,データバリュエーションに関する透明性の向上を支持するとともに,新しいデータバリュエーションカード(DValCards)フレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.5919433278490629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the rise in popularity of data-centric machine learning (ML), various data valuation methods have been proposed to quantify the contribution of each datapoint to desired ML model performance metrics (e.g., accuracy). Beyond the technical applications of data valuation methods (e.g., data cleaning, data acquisition, etc.), it has been suggested that within the context of data markets, data buyers might utilize such methods to fairly compensate data owners. Here we demonstrate that data valuation metrics are inherently biased and unstable under simple algorithmic design choices, resulting in both technical and ethical implications. By analyzing 9 tabular classification datasets and 6 data valuation methods, we illustrate how (1) common and inexpensive data pre-processing techniques can drastically alter estimated data values; (2) subsampling via data valuation metrics may increase class imbalance; and (3) data valuation metrics may undervalue underrepresented group data. Consequently, we argue in favor of increased transparency associated with data valuation in-the-wild and introduce the novel Data Valuation Cards (DValCards) framework towards this aim. The proliferation of DValCards will reduce misuse of data valuation metrics, including in data pricing, and build trust in responsible ML systems.
- Abstract(参考訳): データ中心機械学習(ML)の普及に伴い、所望のMLモデルパフォーマンス指標(精度など)に対する各データポイントの貢献を定量化するために、さまざまなデータ評価手法が提案されている。
データバリュエーション手法(例えば、データクリーニング、データ取得など)の技術的応用以外にも、データマーケットの文脈では、データバイヤーはデータ所有者をかなり補償するためにそのような手法を利用するかもしれないと示唆されている。
ここでは、単純なアルゴリズム設計の選択の下で、データ評価メトリクスが本質的にバイアスを受け、不安定であることを示し、技術的および倫理的意味の両方をもたらす。
9つの表付き分類データセットと6つのデータ評価手法を解析することにより、(1)一般的で安価なデータ前処理技術が推定データ値を劇的に変化させる方法、(2)データ評価メトリクスによるサブサンプリングがクラス不均衡を増大させる可能性、(3)データ評価メトリクスが過小評価されるグループデータを過小評価する方法について解説する。
その結果,データ評価に伴う透明性の向上を論じ,新たなデータ評価カード(Data Valuation Cards,DValCards)フレームワークを導入している。
DValCardsの普及は、データ価格を含むデータバリュエーションメトリクスの誤用を減らし、責任あるMLシステムに対する信頼を構築する。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。