論文の概要: Detecting Dataset Drift and Non-IID Sampling via k-Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2305.15696v1
- Date: Thu, 25 May 2023 04:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:32:17.754773
- Title: Detecting Dataset Drift and Non-IID Sampling via k-Nearest Neighbors
- Title(参考訳): k-Nearest Neighborによるデータセットドリフトと非IIDサンプリングの検出
- Authors: Jesse Cummings, El\'ias Snorrason, Jonas Mueller
- Abstract要約: データの独立性及び特定分散性(IID)を前提とした仮定違反を, 直接統計的に検出する手法を提案する。
考慮された特定の違反形態は、現実世界のアプリケーションに共通している。
我々のアプローチは、より多くの種類のデータに適用可能であり、また、実際に広範囲のIID違反を検出することができる。
- 参考スコア(独自算出の注目度): 16.79939549201032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a straightforward statistical test to detect certain violations of
the assumption that the data are Independent and Identically Distributed (IID).
The specific form of violation considered is common across real-world
applications: whether the examples are ordered in the dataset such that almost
adjacent examples tend to have more similar feature values (e.g. due to
distributional drift, or attractive interactions between datapoints). Based on
a k-Nearest Neighbors estimate, our approach can be used to audit any
multivariate numeric data as well as other data types (image, text, audio,
etc.) that can be numerically represented, perhaps with model embeddings.
Compared with existing methods to detect drift or auto-correlation, our
approach is both applicable to more types of data and also able to detect a
wider variety of IID violations in practice. Code:
https://github.com/cleanlab/cleanlab
- Abstract(参考訳): 本稿では,データを独立分散(IID)と仮定して,一定の違反を検出するための統計テストを提案する。
特定の違反形態は、実世界のアプリケーションに共通する: サンプルがデータセットで順序づけられているか、ほぼ隣接する例は、より類似した特徴値を持つ傾向がある(例えば、分散ドリフトやデータポイント間の魅力的な相互作用)。
k-Nearest Neighborsの推定値に基づいて、我々の手法は、おそらくモデル埋め込みを用いて数値的に表現できる他のデータ型(画像、テキスト、オーディオなど)と同様に、任意の多変量数値データを監査することができる。
ドリフトや自己相関を検出する既存の手法と比較すると、このアプローチはより多くの種類のデータに適用でき、実際より幅広いiid違反を検出することができる。
コード: https://github.com/cleanlab/cleanlab
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Positive Difference Distribution for Image Outlier Detection using
Normalizing Flows and Contrastive Data [2.9005223064604078]
例えば、標準的なログライクリーフトレーニングによる正規化フローは、外れ値スコアとして不十分である。
本稿では,外乱検出のための非ラベル付き補助データセットと確率的外乱スコアを提案する。
これは、分布内と対照的な特徴密度の間の正規化正の差を学ぶことと等価であることを示す。
論文 参考訳(メタデータ) (2022-08-30T07:00:46Z) - Automatically detecting data drift in machine learning classifiers [2.202253618096515]
機械学習のパフォーマンスデータドリフト」や「ドリフト」に影響を及ぼす変化を言う。
提案するラベルの分類と信頼性のみに基づくアプローチを提案し,データ分散やデータドリフトの原因となる可能性のある特徴空間の変更を警告する。
論文 参考訳(メタデータ) (2021-11-10T12:34:14Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Feature Shift Detection: Localizing Which Features Have Shifted via
Conditional Distribution Tests [12.468665026043382]
軍用センサーネットワークでは、ユーザーがセンサーの1つ以上の障害を検知する。
まず、この問題の形式化を複数の条件分布仮説テストとして定義する。
効率性と柔軟性の両面から,密度モデルスコア関数に基づくテスト統計法を提案する。
論文 参考訳(メタデータ) (2021-07-14T18:23:24Z) - Meta-Learning for Relative Density-Ratio Estimation [59.75321498170363]
相対密度比推定(DRE)の既存の方法は、両方の密度から多くのインスタンスを必要とする。
本稿では,関係データセットの知識を用いて,相対密度比を数例から推定する,相対DREのメタラーニング手法を提案する。
提案手法の有効性を,相対的DRE,データセット比較,外乱検出の3つの問題を用いて実証的に実証した。
論文 参考訳(メタデータ) (2021-07-02T02:13:45Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Approximating Instance-Dependent Noise via Instance-Confidence Embedding [87.65718705642819]
マルチクラス分類におけるラベルノイズは、学習システムの展開にとって大きな障害である。
インスタンス依存ノイズ(IDN)モデルを調査し、IDNの効率的な近似を提案し、インスタンス固有のラベル破損を捕捉する。
論文 参考訳(メタデータ) (2021-03-25T02:33:30Z) - Robust Variational Autoencoder for Tabular Data with Beta Divergence [0.0]
本稿では,連続的特徴と分類的特徴を混合した頑健な変動型オートエンコーダを提案する。
ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T08:09:34Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。