論文の概要: Reduced Robust Random Cut Forest for Out-Of-Distribution detection in
machine learning models
- arxiv url: http://arxiv.org/abs/2206.09247v1
- Date: Sat, 18 Jun 2022 17:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 03:08:42.136614
- Title: Reduced Robust Random Cut Forest for Out-Of-Distribution detection in
machine learning models
- Title(参考訳): 機械学習モデルにおける分布外検出のためのロバストなランダムカットフォレスト削減
- Authors: Harsh Vardhan, Janos Sztipanovits
- Abstract要約: ほとんどの機械学習ベースの回帰器は、限られた長さの過去の観測を通して収集されたデータから情報を抽出し、将来予測する。
これらのトレーニングモデルへの入力は、トレーニングに使用されるデータと統計特性が著しく異なるデータである場合、正確な予測は保証されない。
本稿では,ロバストランダムカットフォレストデータ構造を用いた新しい検出手法を提案する。
- 参考スコア(独自算出の注目度): 0.799536002595393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most machine learning-based regressors extract information from data
collected via past observations of limited length to make predictions in the
future. Consequently, when input to these trained models is data with
significantly different statistical properties from data used for training,
there is no guarantee of accurate prediction. Consequently, using these models
on out-of-distribution input data may result in a completely different
predicted outcome from the desired one, which is not only erroneous but can
also be hazardous in some cases. Successful deployment of these machine
learning models in any system requires a detection system, which should be able
to distinguish between out-of-distribution and in-distribution data (i.e.
similar to training data). In this paper, we introduce a novel approach for
this detection process using a Reduced Robust Random Cut Forest (RRRCF) data
structure, which can be used on both small and large data sets. Similar to the
Robust Random Cut Forest (RRCF), RRRCF is a structured, but a reduced
representation of the training data sub-space in form of cut trees. Empirical
results of this method on both low and high-dimensional data showed that
inference about data being in/out of training distribution can be made
efficiently and the model is easy to train with no difficult hyper-parameter
tuning. The paper discusses two different use-cases for testing and validating
results.
- Abstract(参考訳): ほとんどの機械学習ベースの回帰器は、限られた長さの過去の観測を通して収集されたデータから情報を抽出し、将来予測する。
したがって、これらの訓練されたモデルへの入力が、トレーニングに使用するデータと統計特性が著しく異なるデータである場合、正確な予測は保証されない。
したがって、これらのモデルが分布外入力データで使用される場合、予測結果と予測結果とは全く異なる結果をもたらす可能性がある。
任意のシステムにこれらの機械学習モデルをうまく配置するには、アウト・オブ・ディストリビューションとイン・ディストリビューション(トレーニングデータに似たもの)を区別できる検出システムが必要である。
本稿では,この検出プロセスにおいて,小型・大規模の両方で使用できるRRRCF(Reduced Robust Random Cut Forest)データ構造を用いた新しい手法を提案する。
ロバストランダムカットフォレスト(RRCF)と同様に、RRCFは構造化されているが、カットツリーの形でトレーニングデータサブスペースの縮小表現である。
低次元データと高次元データの両方における実験結果から、トレーニング分布の入出力データに対する推論を効率的に行うことができ、超パラメータチューニングが困難で容易に訓練できることがわかった。
テストと検証の2つの異なるユースケースについて論じる。
関連論文リスト
- Usage-Specific Survival Modeling Based on Operational Data and Neural Networks [0.3999851878220878]
提案した手法は、スナップショットと呼ばれる特定のタイミングで継続的に収集され、保存されるデータを使用してトレーニングされたニューラルネットワークベースの生存モデルに基づいている。
論文は、データがすべてのスナップショット時間が同じ特定のフォーマットにある場合、最大限のトレーニングを適用でき、望ましい結果が得られることを示した。
トレーニング中に必要となるサンプルの数を減らすため,トレーニング開始前にデータセットを再サンプリングする代わりに,トレーニング開始時にデータセットをランダムに再サンプリングする手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T16:32:32Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - An unfolding method based on conditional Invertible Neural Networks
(cINN) using iterative training [0.0]
非可逆ニューラルネットワーク(INN)のような生成ネットワークは確率的展開を可能にする。
模擬トレーニングサンプルとデータ間のずれを調整した展開のための反復条件INN(IcINN)を導入する。
論文 参考訳(メタデータ) (2022-12-16T19:00:05Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - PROMISSING: Pruning Missing Values in Neural Networks [0.0]
本稿では,ニューラルネットワークの学習と推論の段階において,欠落値(PROMISSing)を抽出する,シンプルで直感的かつ効果的な手法を提案する。
実験の結果, ProMISSing は様々な計算手法と比較して予測性能が良くなることがわかった。
論文 参考訳(メタデータ) (2022-06-03T15:37:27Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Unsupervised Model Drift Estimation with Batch Normalization Statistics
for Dataset Shift Detection and Model Selection [0.0]
本研究では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。
本手法は,モデル動物園内に複数の候補モデルが存在する場合のモデル選択だけでなく,教師なしの方法でのトレーニングトラジェクトリにおいても有効であることを示す。
論文 参考訳(メタデータ) (2021-07-01T03:04:47Z) - Robust Out-of-Distribution Detection on Deep Probabilistic Generative
Models [0.06372261626436676]
アウト・オブ・ディストリビューション(OOD)検出は機械学習システムにおいて重要な課題である。
深い確率的生成モデルは、データサンプルの可能性を推定することによって、OODの検出を容易にする。
本稿では,外周露光を伴わない新しい検出指標を提案する。
論文 参考訳(メタデータ) (2021-06-15T06:36:10Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。