論文の概要: Data Quality Measures and Efficient Evaluation Algorithms for
Large-Scale High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2101.01441v1
- Date: Tue, 5 Jan 2021 10:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 19:11:49.492563
- Title: Data Quality Measures and Efficient Evaluation Algorithms for
Large-Scale High-Dimensional Data
- Title(参考訳): 大規模高次元データに対するデータ品質測定と効率的な評価アルゴリズム
- Authors: Hyeongmin Cho, Sangkyun Lee
- Abstract要約: データ品質の2つの重要な側面であるクラス分離性とクラス内の変動性を計算する2つのデータ品質対策を提案します。
ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点を生かした品質測定を効率的に行うアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.15229257192293197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning has been proven to be effective in various application
areas, such as object and speech recognition on mobile systems. Since a
critical key to machine learning success is the availability of large training
data, many datasets are being disclosed and published online. From a data
consumer or manager point of view, measuring data quality is an important first
step in the learning process. We need to determine which datasets to use,
update, and maintain. However, not many practical ways to measure data quality
are available today, especially when it comes to large-scale high-dimensional
data, such as images and videos. This paper proposes two data quality measures
that can compute class separability and in-class variability, the two important
aspects of data quality, for a given dataset. Classical data quality measures
tend to focus only on class separability; however, we suggest that in-class
variability is another important data quality factor. We provide efficient
algorithms to compute our quality measures based on random projections and
bootstrapping with statistical benefits on large-scale high-dimensional data.
In experiments, we show that our measures are compatible with classical
measures on small-scale data and can be computed much more efficiently on
large-scale high-dimensional datasets.
- Abstract(参考訳): 機械学習は、モバイルシステムにおけるオブジェクトや音声認識など、さまざまな応用分野で有効であることが証明されている。
機械学習の成功の鍵は、大規模なトレーニングデータの可用性にあるため、多くのデータセットが公開され、公開されている。
データコンシューマやマネージャの観点から見れば、データ品質の測定は学習プロセスにおける重要な第一歩です。
どのデータセットを使用するか、更新し、メンテナンスするかを判断する必要があります。
しかし、特に画像やビデオなどの大規模高次元データに関して、データ品質を測定するための実践的な方法は多くはない。
本稿では,データ品質の2つの重要な側面であるクラス分離性とクラス内可変性を計算可能な2つのデータ品質尺度を提案する。
従来のデータ品質指標はクラス分離性にのみ焦点をあてる傾向があるが、クラス内変動性も重要なデータ品質要因であることが示唆される。
ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点による品質測定を効率的に行うアルゴリズムを提案する。
実験では,我々の測度は小型データに対する古典的測度と互換性があり,大規模高次元データセット上でより効率的に計算できることを示す。
関連論文リスト
- Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Exploring Dataset-Scale Indicators of Data Quality [23.017200605976807]
現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。
近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。
与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
論文 参考訳(メタデータ) (2023-11-07T14:14:32Z) - ECS -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
データ品質の保証のための新しいアプローチを提案する。
この目的のために、まず数学的基礎を議論し、そのアプローチを複数の例を用いて提示する。
これにより、安全クリティカルなシステムにおいて、潜在的に有害な特性を持つデータポイントが検出される。
論文 参考訳(メタデータ) (2023-07-10T06:49:18Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Assessing Dataset Quality Through Decision Tree Characteristics in
Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。
以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。
この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2023-06-27T11:33:31Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Homogenization of Existing Inertial-Based Datasets to Support Human
Activity Recognition [8.076841611508486]
信号から日常生活の行動を認識する問題に対処するために,いくつかの手法が提案されている。
慣性信号に適用する深層学習技術は有効であることが証明されており、かなりの分類精度が達成されている。
人間の行動認識モデルの研究は、ほぼ完全にモデル中心である。
論文 参考訳(メタデータ) (2022-01-17T14:29:48Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - On the Use of Interpretable Machine Learning for the Management of Data
Quality [13.075880857448059]
我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。
私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
論文 参考訳(メタデータ) (2020-07-29T08:49:32Z) - What is the Value of Data? On Mathematical Methods for Data Quality
Estimation [35.75162309592681]
与えられたデータセットの品質に関する公式な定義を提案する。
予測直径と呼ぶ量によってデータセットの品質を評価する。
論文 参考訳(メタデータ) (2020-01-09T18:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。