論文の概要: On the Impact of the Utility in Semivalue-based Data Valuation
- arxiv url: http://arxiv.org/abs/2502.06574v1
- Date: Mon, 10 Feb 2025 15:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:29.388684
- Title: On the Impact of the Utility in Semivalue-based Data Valuation
- Title(参考訳): 半値データ評価における実用性の影響について
- Authors: Mélissa Tamine, Benjamin Heymann, Patrick Loiseau, Maxime Vono,
- Abstract要約: 機械学習(ML)における半値ベースのデータ評価は、下流のMLタスクに対する個々のデータポイントの寄与を定量化する。
このフレームワークは実際にデータ品質を評価するために使われてきましたが、実験ではさまざまなユーティリティで不整合な評価結果が明らかになりました。
- 参考スコア(独自算出の注目度): 11.207084981290123
- License:
- Abstract: Semivalue-based data valuation in machine learning (ML) quantifies the contribution of individual data points to a downstream ML task by leveraging principles from cooperative game theory and the notion of utility. While this framework has been used in practice for assessing data quality, our experiments reveal inconsistent valuation outcomes across different utilities, albeit all related to ML performance. Beyond raising concerns about the reliability of data valuation, this inconsistency is challenging to interpret, as it stems from the complex interaction of the utility with data points and semivalue weights, which has barely been studied in prior work. In this paper, we take a first step toward clarifying the utility impact on semivalue-based data valuation. Specifically, we provide geometric interpretations of this impact for a broad family of classification utilities, which includes the accuracy and the arithmetic mean. We introduce the notion of spatial signatures: given a semivalue, data points can be embedded into a two-dimensional space, and utility functions map to the dual of this space. This geometric perspective separates the influence of the dataset and semivalue from that of the utility, providing a theoretical explanation for the experimentally observed sensitivity of valuation outcomes to the utility choice.
- Abstract(参考訳): 機械学習(ML)における半値に基づくデータ評価は、協調ゲーム理論とユーティリティの概念の原理を活用することにより、下流MLタスクへの個々のデータポイントの寄与を定量化する。
このフレームワークは実際にデータ品質を評価するために使われてきましたが、実験ではさまざまなユーティリティで不整合な評価結果が明らかになりました。
データバリュエーションの信頼性に関する懸念の高まりに加えて、この矛盾は、データポイントと半値重みとのユーティリティの複雑な相互作用に起因しているため、解釈するのが困難である。
本稿では,半値に基づくデータ評価に対する実用的影響を明らかにするための第一歩を踏み出す。
具体的には、この影響の幾何学的解釈を、精度と算術平均を含む幅広い分類ユーティリティのファミリーに提供します。
空間的シグネチャの概念を導入する: 半値が与えられたとき、データポイントを二次元空間に埋め込むことができ、ユーティリティ関数はこの空間の双対にマップする。
この幾何学的視点は、データセットと半値の影響を実用性から切り離し、評価結果の感度が実用性の選択に対して実験的に観察された理論的な説明を提供する。
関連論文リスト
- Position: Measure Dataset Diversity, Don't Just Claim It [8.551188808401294]
データセットキュレーターは、データセットを特徴付けるために、多様性、バイアス、品質といった、価値に富んだ用語を頻繁に使用します。
それらの流行にもかかわらず、これらの用語には明確な定義と検証が欠けている。
本研究は,135の画像データセットとテキストデータセットにまたがる「多様性」を分析し,この問題の意義を考察する。
論文 参考訳(メタデータ) (2024-07-11T05:13:27Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Data Valuation by Leveraging Global and Local Statistical Information [25.911043100052588]
グローバルとローカルの両方の値分布が、機械学習の文脈におけるデータ評価に有意な可能性を秘めていることを示す。
提案手法は,探索された分布特性を既存手法であるAMEに組み込むことで,Shapley値を推定する新しいデータ評価手法であるAMEを提案する。
また,グローバルな値分布と局所的な値分布の情報を統合した最適化問題を定式化することにより,動的データ評価問題に対処する新たな経路を提案する。
論文 参考訳(メタデータ) (2024-05-23T08:58:08Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Effective Data-aware Covariance Estimator from Compressed Data [63.16042585506435]
本研究では,データ対応重み付きサンプリングベース共分散行列推定器,すなわち DACE を提案し,非バイアス共分散行列推定を行う。
我々は、DACEの優れた性能を示すために、合成データセットと実世界のデータセットの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-10-10T10:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。