論文の概要: Conformalized Semi-supervised Random Forest for Classification and
Abnormality Detection
- arxiv url: http://arxiv.org/abs/2302.02237v2
- Date: Thu, 29 Feb 2024 11:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 19:08:22.981650
- Title: Conformalized Semi-supervised Random Forest for Classification and
Abnormality Detection
- Title(参考訳): 等角化半教師付きランダム森林の分類と異常検出
- Authors: Yujin Han, Mingwenchan Xu, Leying Guan
- Abstract要約: コンフォーマル化半監督ランダムフォレスト(CSForest)について紹介する。
CSForestは、未ラベルのテストサンプルを使用して、空のセットを生成して、精度を高め、目に見えないアウトリーチをフラグする。
我々はCSForestと、合成例と様々な実世界のデータセットを用いた最先端の手法を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Random Forests classifier, a widely utilized off-the-shelf classification
tool, assumes training and test samples come from the same distribution as
other standard classifiers. However, in safety-critical scenarios like medical
diagnosis and network attack detection, discrepancies between the training and
test sets, including the potential presence of novel outlier samples not
appearing during training, can pose significant challenges. To address this
problem, we introduce the Conformalized Semi-Supervised Random Forest
(CSForest), which couples the conformalization technique Jackknife+aB with
semi-supervised tree ensembles to construct a set-valued prediction $C(x)$.
Instead of optimizing over the training distribution, CSForest employs
unlabeled test samples to enhance accuracy and flag unseen outliers by
generating an empty set. Theoretically, we establish CSForest to cover true
labels for previously observed inlier classes under arbitrarily label-shift in
the test data. We compare CSForest with state-of-the-art methods using
synthetic examples and various real-world datasets, under different types of
distribution changes in the test domain. Our results highlight CSForest's
effective prediction of inliers and its ability to detect outlier samples
unique to the test data. In addition, CSForest shows persistently good
performance as the sizes of the training and test sets vary. Codes of CSForest
are available at https://github.com/yujinhan98/CSForest.
- Abstract(参考訳): 広く使われている市販の分類ツールであるランダムフォレスト分類器は、トレーニングとテストサンプルは他の標準分類器と同じ分布から来ていると仮定している。
しかし、医療診断やネットワークアタック検出のような安全に重要なシナリオでは、トレーニング中に現れない新しい異常なサンプルの存在を含む、トレーニングセットとテストセットの相違が重大な課題となる。
そこで本研究では,共形化手法であるjackknife+abと半教師付きツリーアンサンブルを結合した共形半教師付きランダムフォレスト (csforest) を導入し,集合値予測 $c(x)$ を構成する。
トレーニング分布を最適化する代わりに、csforestはラベルのないテストサンプルを使用して精度を高め、空集合を生成して見当たらない外れ値にフラグを付ける。
理論的には、CSForestはテストデータの任意のラベルシフトの下で、以前に観測された不整性クラスに対して真のラベルをカバーできる。
テスト領域における分布変化の種類によってcsforestを合成例と様々な実世界のデータセットを用いて最先端手法と比較する。
この結果から,CSForestのインレーラの効果的な予測と,テストデータに特有のアウトレーラサンプルの検出が可能となった。
さらにCSForestは、トレーニングとテストセットのサイズが異なるため、持続的に優れたパフォーマンスを示している。
CSForestのコードはhttps://github.com/yujinhan98/CSForestで公開されている。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - How Low Can You Go? Surfacing Prototypical In-Distribution Samples for Unsupervised Anomaly Detection [48.30283806131551]
非常に少ないトレーニングサンプルを持つUADが、トレーニングデータセット全体のトレーニングパフォーマンスにすでに一致している - そして、場合によっては、それを超えることもある、ということが、私たちは示しています。
そこで本研究では,UAD性能をさらに向上させるために,原型標本を確実に同定するための教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T15:30:47Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - Large-Scale Open-Set Classification Protocols for ImageNet [0.0]
Open-Set Classification (OSC) は、実世界のシナリオにクローズドセットの分類モデルを適用することを目的としている。
本稿では,未知のクラスと未知のクラスの間で,異なるレベルの類似性を持つ自然画像のリッチなデータセットを提供する3つのオープンセットプロトコルを提案する。
本稿では,ディープラーニングモデルのトレーニングが既知のサンプルの分類と未知のサンプルの拒絶の両方に対処するかどうかを評価するために,新しい検証基準を提案する。
論文 参考訳(メタデータ) (2022-10-13T07:01:34Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Multi-Class Data Description for Out-of-distribution Detection [25.853322158250435]
Deep-MCDDは、分布外(OOD)サンプルを検出するだけでなく、分布内(ID)サンプルを分類するのに効果的です。
ガウス微分分析の概念をディープニューラルネットワークに統合することにより,クラス条件分布を学習する深層学習目標を提案する。
論文 参考訳(メタデータ) (2021-04-02T08:41:51Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。