論文の概要: What is the Value of Data? On Mathematical Methods for Data Quality
Estimation
- arxiv url: http://arxiv.org/abs/2001.03464v2
- Date: Tue, 12 May 2020 14:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:38:37.288014
- Title: What is the Value of Data? On Mathematical Methods for Data Quality
Estimation
- Title(参考訳): データの価値は何か?
データ品質推定のための数学的手法について
- Authors: Netanel Raviv, Siddharth Jain, Jehoshua Bruck
- Abstract要約: 与えられたデータセットの品質に関する公式な定義を提案する。
予測直径と呼ぶ量によってデータセットの品質を評価する。
- 参考スコア(独自算出の注目度): 35.75162309592681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is one of the most important assets of the information age, and its
societal impact is undisputed. Yet, rigorous methods of assessing the quality
of data are lacking. In this paper, we propose a formal definition for the
quality of a given dataset. We assess a dataset's quality by a quantity we call
the expected diameter, which measures the expected disagreement between two
randomly chosen hypotheses that explain it, and has recently found applications
in active learning. We focus on Boolean hyperplanes, and utilize a collection
of Fourier analytic, algebraic, and probabilistic methods to come up with
theoretical guarantees and practical solutions for the computation of the
expected diameter. We also study the behaviour of the expected diameter on
algebraically structured datasets, conduct experiments that validate this
notion of quality, and demonstrate the feasibility of our techniques.
- Abstract(参考訳): データは情報時代の最も重要な資産の1つであり、社会的な影響は否定できない。
しかし、データの質を評価する厳密な方法が欠けている。
本稿では,与えられたデータセットの品質に関する形式的定義を提案する。
予測直径と呼ぶ量によってデータセットの品質を評価する。これは、ランダムに選択された2つの仮説の相違を計測し、最近、アクティブラーニングの応用を見出した。
我々はブール超平面に注目し,フーリエ解析的,代数的,確率的手法の集まりを用いて,期待される直径の計算に対する理論的保証と実用的な解法を考案する。
また,代数的構造化データセットにおける期待直径の挙動を調査し,この品質概念を検証する実験を行い,その実現可能性を示す。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Proper Dataset Valuation by Pointwise Mutual Information [26.693741797887643]
データキュレーション手法を評価するための情報理論フレームワークを提案する。
評価データとテストデータのシャノン相互情報による情報性の比較を行った。
実世界のデータを用いた実験により、我々の相互情報に基づく評価は、データキュレーション戦略に適切に低いスコアを割り当てることを示した。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文 参考訳(メタデータ) (2021-08-16T12:20:57Z) - Data Quality Evaluation using Probability Models [0.0]
以上の結果から, 単純な善/悪の学習例に基づいて, データの質を予測する能力は正確であることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T18:12:19Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。