論文の概要: 2D-Shapley: A Framework for Fragmented Data Valuation
- arxiv url: http://arxiv.org/abs/2306.10473v2
- Date: Thu, 27 Jul 2023 02:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 19:29:01.801461
- Title: 2D-Shapley: A Framework for Fragmented Data Valuation
- Title(参考訳): 2D-Shapley: 断片化されたデータ評価のためのフレームワーク
- Authors: Zhihong Liu, Hoang Anh Just, Xiangyu Chang, Xi Chen, Ruoxi Jia
- Abstract要約: 断片化データ評価の理論的枠組みとして2D-Shapleyを提案する。
2D-Shapleyは、有用なデータフラグメントの選択など、さまざまな新しいユースケースを促進する。
- 参考スコア(独自算出の注目度): 18.438617541012594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation -- quantifying the contribution of individual data sources to
certain predictive behaviors of a model -- is of great importance to enhancing
the transparency of machine learning and designing incentive systems for data
sharing. Existing work has focused on evaluating data sources with the shared
feature or sample space. How to valuate fragmented data sources of which each
only contains partial features and samples remains an open question. We start
by presenting a method to calculate the counterfactual of removing a fragment
from the aggregated data matrix. Based on the counterfactual calculation, we
further propose 2D-Shapley, a theoretical framework for fragmented data
valuation that uniquely satisfies some appealing axioms in the fragmented data
context. 2D-Shapley empowers a range of new use cases, such as selecting useful
data fragments, providing interpretation for sample-wise data values, and
fine-grained data issue diagnosis.
- Abstract(参考訳): データ評価 -- モデルの特定の予測行動に対する個々のデータソースの貢献を定量化する -- は、機械学習の透明性を高め、データ共有のためのインセンティブシステムを設計する上で非常に重要である。
既存の作業は、共有機能やサンプルスペースでデータソースを評価することに集中しています。
それぞれの部分的な特徴とサンプルのみを含む断片化されたデータソースの評価方法は、未解決の問題のままである。
まず,集約されたデータマトリックスから断片を除去することの反事実を計算する手法を提案する。
反事実計算に基づいてさらに,断片化されたデータコンテキストにおける一意に魅力的な公理を満たす,断片化されたデータ評価のための理論的枠組みである2d-shapleyを提案する。
2D-Shapleyは、有用なデータフラグメントの選択、サンプル単位のデータ値の解釈、きめ細かいデータ問題診断など、さまざまな新しいユースケースを促進する。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。
提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。
いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文 参考訳(メタデータ) (2022-08-28T13:13:17Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Study of sampling methods in sentiment analysis of imbalanced data [0.0]
本研究では,2つの異なるデータセットに対する感情分析におけるサンプリング手法の適用について検討する。
1つのデータセットには、調理プラットフォームEpicuriousからのオンラインユーザレビューが含まれており、もう1つは、計画された親団体に提供されるコメントが含まれている。
論文 参考訳(メタデータ) (2021-06-12T03:16:18Z) - Federated Estimation of Causal Effects from Observational Data [19.657789891394504]
フェデレートされたデータソースを用いた因果推論のための新しいフレームワークを提案する。
我々は、異なるプライベートデータソースからの局所因果効果を中央集権化せずに評価し、統合する。
論文 参考訳(メタデータ) (2021-05-31T08:06:00Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。