論文の概要: Detecting Dataset Drift and Non-IID Sampling via k-Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2305.15696v1
- Date: Thu, 25 May 2023 04:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:32:17.754773
- Title: Detecting Dataset Drift and Non-IID Sampling via k-Nearest Neighbors
- Title(参考訳): k-Nearest Neighborによるデータセットドリフトと非IIDサンプリングの検出
- Authors: Jesse Cummings, El\'ias Snorrason, Jonas Mueller
- Abstract要約: データの独立性及び特定分散性(IID)を前提とした仮定違反を, 直接統計的に検出する手法を提案する。
考慮された特定の違反形態は、現実世界のアプリケーションに共通している。
我々のアプローチは、より多くの種類のデータに適用可能であり、また、実際に広範囲のIID違反を検出することができる。
- 参考スコア(独自算出の注目度): 16.79939549201032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a straightforward statistical test to detect certain violations of
the assumption that the data are Independent and Identically Distributed (IID).
The specific form of violation considered is common across real-world
applications: whether the examples are ordered in the dataset such that almost
adjacent examples tend to have more similar feature values (e.g. due to
distributional drift, or attractive interactions between datapoints). Based on
a k-Nearest Neighbors estimate, our approach can be used to audit any
multivariate numeric data as well as other data types (image, text, audio,
etc.) that can be numerically represented, perhaps with model embeddings.
Compared with existing methods to detect drift or auto-correlation, our
approach is both applicable to more types of data and also able to detect a
wider variety of IID violations in practice. Code:
https://github.com/cleanlab/cleanlab
- Abstract(参考訳): 本稿では,データを独立分散(IID)と仮定して,一定の違反を検出するための統計テストを提案する。
特定の違反形態は、実世界のアプリケーションに共通する: サンプルがデータセットで順序づけられているか、ほぼ隣接する例は、より類似した特徴値を持つ傾向がある(例えば、分散ドリフトやデータポイント間の魅力的な相互作用)。
k-Nearest Neighborsの推定値に基づいて、我々の手法は、おそらくモデル埋め込みを用いて数値的に表現できる他のデータ型(画像、テキスト、オーディオなど)と同様に、任意の多変量数値データを監査することができる。
ドリフトや自己相関を検出する既存の手法と比較すると、このアプローチはより多くの種類のデータに適用でき、実際より幅広いiid違反を検出することができる。
コード: https://github.com/cleanlab/cleanlab
関連論文リスト
- Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Positive Difference Distribution for Image Outlier Detection using
Normalizing Flows and Contrastive Data [2.9005223064604078]
例えば、標準的なログライクリーフトレーニングによる正規化フローは、外れ値スコアとして不十分である。
本稿では,外乱検出のための非ラベル付き補助データセットと確率的外乱スコアを提案する。
これは、分布内と対照的な特徴密度の間の正規化正の差を学ぶことと等価であることを示す。
論文 参考訳(メタデータ) (2022-08-30T07:00:46Z) - Automatically detecting data drift in machine learning classifiers [2.202253618096515]
機械学習のパフォーマンスデータドリフト」や「ドリフト」に影響を及ぼす変化を言う。
提案するラベルの分類と信頼性のみに基づくアプローチを提案し,データ分散やデータドリフトの原因となる可能性のある特徴空間の変更を警告する。
論文 参考訳(メタデータ) (2021-11-10T12:34:14Z) - Feature Shift Detection: Localizing Which Features Have Shifted via
Conditional Distribution Tests [12.468665026043382]
軍用センサーネットワークでは、ユーザーがセンサーの1つ以上の障害を検知する。
まず、この問題の形式化を複数の条件分布仮説テストとして定義する。
効率性と柔軟性の両面から,密度モデルスコア関数に基づくテスト統計法を提案する。
論文 参考訳(メタデータ) (2021-07-14T18:23:24Z) - Meta-Learning for Relative Density-Ratio Estimation [59.75321498170363]
相対密度比推定(DRE)の既存の方法は、両方の密度から多くのインスタンスを必要とする。
本稿では,関係データセットの知識を用いて,相対密度比を数例から推定する,相対DREのメタラーニング手法を提案する。
提案手法の有効性を,相対的DRE,データセット比較,外乱検出の3つの問題を用いて実証的に実証した。
論文 参考訳(メタデータ) (2021-07-02T02:13:45Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Approximating Instance-Dependent Noise via Instance-Confidence Embedding [87.65718705642819]
マルチクラス分類におけるラベルノイズは、学習システムの展開にとって大きな障害である。
インスタンス依存ノイズ(IDN)モデルを調査し、IDNの効率的な近似を提案し、インスタンス固有のラベル破損を捕捉する。
論文 参考訳(メタデータ) (2021-03-25T02:33:30Z) - Unsupervised Noisy Tracklet Person Re-identification [100.85530419892333]
本稿では,非照合トラックレットデータから識別的人物再識別モデルを訓練できる選択的トラックレット学習(STL)手法を提案する。
これにより、カメラビュー全体で人物の画像/トラックレットの真のマッチングペアを完全にラベル付けする面倒でコストのかかるプロセスが回避されます。
提案手法は生トラックレットの任意のノイズデータに対して特に頑健であるため,制約のない追跡データから識別モデル学習にスケーラブルである。
論文 参考訳(メタデータ) (2021-01-16T07:31:00Z) - Robust Variational Autoencoder for Tabular Data with Beta Divergence [0.0]
本稿では,連続的特徴と分類的特徴を混合した頑健な変動型オートエンコーダを提案する。
ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T08:09:34Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。