論文の概要: Class Density and Dataset Quality in High-Dimensional, Unstructured Data
- arxiv url: http://arxiv.org/abs/2202.03856v1
- Date: Tue, 8 Feb 2022 13:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 14:08:10.146274
- Title: Class Density and Dataset Quality in High-Dimensional, Unstructured Data
- Title(参考訳): 高次元非構造データにおけるクラス密度とデータセットの品質
- Authors: Adam Byerly and Tatiana Kalganova
- Abstract要約: 我々は,高次元非構造データセットにおける各クラス内のサンプルの集合類似度を測定するために,クラス密度の定義を提供する。
次に、クラス密度を計算し、各手法が生成する値間の相関を解析するためのいくつかの候補手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a definition for class density that can be used to measure the
aggregate similarity of the samples within each of the classes in a
high-dimensional, unstructured dataset. We then put forth several candidate
methods for calculating class density and analyze the correlation between the
values each method produces with the corresponding individual class test
accuracies achieved on a trained model. Additionally, we propose a definition
for dataset quality for high-dimensional, unstructured data and show that those
datasets that met a certain quality threshold (experimentally demonstrated to
be > 10 for the datasets studied) were candidates for eliding redundant data
based on the individual class densities.
- Abstract(参考訳): 我々は,高次元非構造データセットにおける各クラス内のサンプルの集合類似度を測定するために,クラス密度の定義を提供する。
次に、クラス密度を計算し、各手法が生成する値と、訓練されたモデル上で達成した個々のクラステスト精度との相関関係を解析する。
さらに,高次元の非構造化データに対するデータセット品質の定義を提案し,それらのデータセットが一定の品質しきい値(実験により得られたデータセットの>10)を満たすことが,個々のクラス密度に基づいて冗長データを導出する候補であることを示す。
関連論文リスト
- Attribute-Based Semantic Type Detection and Data Quality Assessment [0.5735035463793008]
本研究では,属性に基づくセマンティック型検出とデータ品質評価を中心とした,革新的な手法を提案する。
属性ラベル内の意味情報とルールベースの分析と包括的フォーマット・省略辞書を組み合わせることで,本手法は実用的な意味型分類システムを導入する。
最先端のセマンティック型検出システムであるSherlockとの比較分析により,本手法の利点が示された。
論文 参考訳(メタデータ) (2024-10-04T09:22:44Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Signal classification using weighted orthogonal regression method [0.0]
本稿では,各クラス固有の構造を,対応する固有成分を介して活用する新しい分類法を提案する。
提案手法は,各サブ空間の基底を選択するために,各クラスから取得したデータのSVDによる固有ベクトルを含む。
それは、意思決定基準が2つのクラスを識別する効果的な重み付けであると考えている。
論文 参考訳(メタデータ) (2020-10-12T19:12:14Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Hierarchical Qualitative Clustering: clustering mixed datasets with
critical qualitative information [0.2294014185517203]
本稿では,階層クラスタリング(HQC)と最大平均離散値を用いた定性値のクラスタリング手法を提案する。
Spotifyが提供する混合データセットを用いて、数千曲の楽曲の量的特徴に基づいて、アーティストのクラスタリングに我々の手法をどのように利用できるかを示す。
また、企業の財務的特徴を利用することで、企業産業をクラスタ化し、投資ポートフォリオへの影響について議論する。
論文 参考訳(メタデータ) (2020-06-30T11:48:51Z) - What is the Value of Data? On Mathematical Methods for Data Quality
Estimation [35.75162309592681]
与えられたデータセットの品質に関する公式な定義を提案する。
予測直径と呼ぶ量によってデータセットの品質を評価する。
論文 参考訳(メタデータ) (2020-01-09T18:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。