論文の概要: Testing for Typicality with Respect to an Ensemble of Learned
Distributions
- arxiv url: http://arxiv.org/abs/2011.06041v1
- Date: Wed, 11 Nov 2020 19:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:33:30.294709
- Title: Testing for Typicality with Respect to an Ensemble of Learned
Distributions
- Title(参考訳): 学習分布のアンサンブルを考慮した典型検査
- Authors: Forrest Laine and Claire Tomlin
- Abstract要約: 適合性のよい問題に対する一サンプルのアプローチは、オンラインテストに多大な計算上の利点をもたらす。
この設定において異常データを正しく否定する能力は、ベース分布のモデルの精度に依存する。
既成の正当性問題に対する既存の手法は、基底分布のモデルが学習されたという事実を考慮に入れない。
本稿では,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
- 参考スコア(独自算出の注目度): 5.850572971372637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods of performing anomaly detection on high-dimensional data sets are
needed, since algorithms which are trained on data are only expected to perform
well on data that is similar to the training data. There are theoretical
results on the ability to detect if a population of data is likely to come from
a known base distribution, which is known as the goodness-of-fit problem.
One-sample approaches to this problem offer significant computational
advantages for online testing, but require knowing a model of the base
distribution. The ability to correctly reject anomalous data in this setting
hinges on the accuracy of the model of the base distribution. For high
dimensional data, learning an accurate-enough model of the base distribution
such that anomaly detection works reliably is very challenging, as many
researchers have noted in recent years. Existing methods for the one-sample
goodness-of-fit problem do not account for the fact that a model of the base
distribution is learned. To address that gap, we offer a theoretically
motivated approach to account for the density learning procedure. In
particular, we propose training an ensemble of density models, considering data
to be anomalous if the data is anomalous with respect to any member of the
ensemble. We provide a theoretical justification for this approach, proving
first that a test on typicality is a valid approach to the goodness-of-fit
problem, and then proving that for a correctly constructed ensemble of models,
the intersection of typical sets of the models lies in the interior of the
typical set of the base distribution. We present our method in the context of
an example on synthetic data in which the effects we consider can easily be
seen.
- Abstract(参考訳): データに基づいてトレーニングされたアルゴリズムは、トレーニングデータに類似したデータでのみうまく機能することが期待されるため、高次元データセットで異常検出を行う方法が必要となる。
データの集団が既知のベース分布から来る可能性が高いかどうかを検知する能力に関する理論的結果があり、これは適合性の良さ問題として知られている。
この問題に対する1つのサンプルアプローチは、オンラインテストに重要な計算上の利点を提供するが、ベース分布のモデルを知る必要がある。
この設定で異常なデータを正しく拒否する能力は、ベース分布のモデルの精度にかかっている。
高次元データでは、近年多くの研究者が指摘しているように、異常検出が確実に機能するように、ベース分布の正確なモデルを学ぶことは非常に難しい。
既存手法では、ベース分布のモデルが学習されているという事実は考慮されていない。
このギャップに対処するために,我々は,密度学習手順を考慮した理論的動機付け手法を提案する。
特に,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
このアプローチを理論的に正当化し、まず、典型性に対するテストが適合性問題に対する有効なアプローチであることを証明し、次に、正しく構築されたモデルのアンサンブルに対して、モデルの典型集合の交叉が基底分布の典型集合の内部にあることを証明する。
提案手法は, 合成データの例の文脈において, 考慮すべき効果が容易に見ることができることを示す。
関連論文リスト
- Demystifying amortized causal discovery with transformers [21.058343547918053]
観測データからの因果発見のための教師付き学習アプローチは、しばしば競争性能を達成する。
本研究では,CSIvAについて検討する。CSIvAは,合成データのトレーニングと実データへの転送を約束するトランスフォーマーモデルである。
既存の識別可能性理論とギャップを埋め、トレーニングデータ分布の制約がテスト観測の事前を暗黙的に定義していることを示します。
論文 参考訳(メタデータ) (2024-05-27T08:17:49Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Composite Goodness-of-fit Tests with Kernels [19.744607024807188]
本稿では,難解な複合テスト問題に対するカーネルベースの仮説テストを提案する。
実験では,最小距離推定器を用いて,最大平均誤差とカーネルのStein誤差を推定した。
主な結果として、パラメータを推定し、正しいテストレベルを維持しながら、同じデータ上でテストを実行することができることを示す。
論文 参考訳(メタデータ) (2021-11-19T15:25:06Z) - Bayesian Imaging With Data-Driven Priors Encoded by Neural Networks:
Theory, Methods, and Algorithms [2.266704469122763]
本稿では,事前知識がトレーニングデータとして利用可能である逆問題に対して,ベイズ推定を行う新しい手法を提案する。
容易に検証可能な条件下で,関連する後方モーメントの存在と適切性を確立する。
モデル精度解析により、データ駆動モデルによって報告されるベイズ確率は、頻繁な定義の下で著しく正確であることが示された。
論文 参考訳(メタデータ) (2021-03-18T11:34:08Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。