論文の概要: On the Impact of the Utility in Semivalue-based Data Valuation
- arxiv url: http://arxiv.org/abs/2502.06574v2
- Date: Fri, 23 May 2025 15:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.788568
- Title: On the Impact of the Utility in Semivalue-based Data Valuation
- Title(参考訳): 半値データ評価における実用性の影響について
- Authors: Mélissa Tamine, Benjamin Heymann, Patrick Loiseau, Maxime Vono,
- Abstract要約: 半値に基づくデータ評価は、協調ゲーム理論の直観を用いて、各データポイントを下流タスクへの貢献を反映した値に割り当てる。
ユーティリティの変更に対して、半値ベースのデータバリュエーションはどの程度堅牢か?
本稿では,実用性の変化に伴ってデータ評価結果がどの程度変化するかを実践者に知らせる,明示的な堅牢度尺度を中心とした実践的方法論を提案する。
- 参考スコア(独自算出の注目度): 11.207084981290123
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semivalue-based data valuation uses cooperative-game theory intuitions to assign each data point a value reflecting its contribution to a downstream task. Still, those values depend on the practitioner's choice of utility, raising the question: How robust is semivalue-based data valuation to changes in the utility? This issue is critical when the utility is set as a trade-off between several criteria and when practitioners must select among multiple equally valid utilities. We address it by introducing the notion of a dataset's spatial signature: given a semivalue, we embed each data point into a lower-dimensional space where any utility becomes a linear functional, making the data valuation framework amenable to a simpler geometric picture. Building on this, we propose a practical methodology centered on an explicit robustness metric that informs practitioners whether and by how much their data valuation results will shift as the utility changes. We validate this approach across diverse datasets and semivalues, demonstrating strong agreement with rank-correlation analyses and offering analytical insight into how choosing a semivalue can amplify or diminish robustness.
- Abstract(参考訳): 半値に基づくデータ評価は、協調ゲーム理論の直観を用いて、各データポイントを下流タスクへの貢献を反映した値に割り当てる。
それでも、これらの値は実践者のユーティリティ選択に依存しており、次のような疑問を提起している。 ユーティリティの変更に対して、半値ベースのデータバリュエーションは、どの程度堅牢か?
この問題は、ユーティリティがいくつかの基準の間のトレードオフとして設定され、実践者が複数の等価なユーティリティの中から選択しなければならない場合に重要である。
半値が与えられたら、各データポイントを線形汎関数となる低次元空間に埋め込み、より単純な幾何学的図形にデータアセスメントフレームワークを適用できるようにする。
そこで本研究では,実用性の変化に伴ってデータ評価結果がどの程度変化するかを実践者に知らせる,明示的な堅牢性尺度を中心にした実践的方法論を提案する。
様々なデータセットや半値にまたがってこのアプローチを検証し、ランク相関分析と強い一致を示し、半値の選択が頑健さを増幅または弱める方法に関する分析的な洞察を提供する。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Position: Measure Dataset Diversity, Don't Just Claim It [8.551188808401294]
データセットキュレーターは、データセットを特徴付けるために、多様性、バイアス、品質といった、価値に富んだ用語を頻繁に使用します。
それらの流行にもかかわらず、これらの用語には明確な定義と検証が欠けている。
本研究は,135の画像データセットとテキストデータセットにまたがる「多様性」を分析し,この問題の意義を考察する。
論文 参考訳(メタデータ) (2024-07-11T05:13:27Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Data Valuation by Leveraging Global and Local Statistical Information [25.911043100052588]
グローバルとローカルの両方の値分布が、機械学習の文脈におけるデータ評価に有意な可能性を秘めていることを示す。
提案手法は,探索された分布特性を既存手法であるAMEに組み込むことで,Shapley値を推定する新しいデータ評価手法であるAMEを提案する。
また,グローバルな値分布と局所的な値分布の情報を統合した最適化問題を定式化することにより,動的データ評価問題に対処する新たな経路を提案する。
論文 参考訳(メタデータ) (2024-05-23T08:58:08Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Effective Data-aware Covariance Estimator from Compressed Data [63.16042585506435]
本研究では,データ対応重み付きサンプリングベース共分散行列推定器,すなわち DACE を提案し,非バイアス共分散行列推定を行う。
我々は、DACEの優れた性能を示すために、合成データセットと実世界のデータセットの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-10-10T10:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。