論文の概要: How Does Unlabeled Data Provably Help Out-of-Distribution Detection?
- arxiv url: http://arxiv.org/abs/2402.03502v1
- Date: Mon, 5 Feb 2024 20:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:45:41.688569
- Title: How Does Unlabeled Data Provably Help Out-of-Distribution Detection?
- Title(参考訳): ラベルのないデータが分散検出にどのように役立つか?
- Authors: Xuefeng Du, Zhen Fang, Ilias Diakonikolas, Yixuan Li
- Abstract要約: in-distribution (ID) とout-of-distribution (OOD) の両データの不均一性のため、未ラベルの in-the-wild データは非自明である。
本稿では,理論的保証と実証的有効性の両方を提供する新たな学習フレームワークであるSAL(Separate And Learn)を紹介する。
- 参考スコア(独自算出の注目度): 63.41681272937562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using unlabeled data to regularize the machine learning models has
demonstrated promise for improving safety and reliability in detecting
out-of-distribution (OOD) data. Harnessing the power of unlabeled in-the-wild
data is non-trivial due to the heterogeneity of both in-distribution (ID) and
OOD data. This lack of a clean set of OOD samples poses significant challenges
in learning an optimal OOD classifier. Currently, there is a lack of research
on formally understanding how unlabeled data helps OOD detection. This paper
bridges the gap by introducing a new learning framework SAL (Separate And
Learn) that offers both strong theoretical guarantees and empirical
effectiveness. The framework separates candidate outliers from the unlabeled
data and then trains an OOD classifier using the candidate outliers and the
labeled ID data. Theoretically, we provide rigorous error bounds from the lens
of separability and learnability, formally justifying the two components in our
algorithm. Our theory shows that SAL can separate the candidate outliers with
small error rates, which leads to a generalization guarantee for the learned
OOD classifier. Empirically, SAL achieves state-of-the-art performance on
common benchmarks, reinforcing our theoretical insights. Code is publicly
available at https://github.com/deeplearning-wisc/sal.
- Abstract(参考訳): ラベルのないデータを使用して機械学習モデルを正規化することにより、out-of-distribution(ood)データの検出における安全性と信頼性が向上する。
In-distriion(ID)データとOODデータの両方の不均一性のため、未ラベルのIn-the-wildデータのパワーを損なうことは自明ではない。
クリーンなOODサンプルの欠如は、最適なOOD分類器を学習する上で大きな課題となる。
現在、ラベルのないデータがOOD検出にどのように役立つのかを正式に理解する研究が不足している。
本稿では,理論的保証と実証的有効性の両方を提供する新たな学習フレームワークSAL(Separate And Learn)を導入することにより,ギャップを埋める。
このフレームワークは、未ラベルデータから候補外れ値を切り離し、候補外れ値とラベル付きIDデータを用いてOOD分類器を訓練する。
理論的には、分離性と学習可能性のレンズから厳密な誤差境界を提供し、アルゴリズムの2つの要素を正式に正当化する。
我々の理論は、SALが小さい誤り率で候補外乱を分離できることを示し、学習されたOOD分類器の一般化を保証する。
実証的に、SALは一般的なベンチマークで最先端のパフォーマンスを達成し、理論的な洞察を補強します。
コードはhttps://github.com/deeplearning-wisc/salで公開されている。
関連論文リスト
- What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - RICASSO: Reinforced Imbalance Learning with Class-Aware Self-Supervised Outliers Exposure [21.809270017579806]
ディープラーニングモデルは、不均衡(ロングテール)とアウト・オブ・ディストリビューション(OOD)の両方のデータから、しばしば課題に直面します。
本研究は、データ混合により、IDデータとOODデータの両方の特徴を示す擬似OODデータを生成することができることを示す。
RICASSO(Reinforced Im Balance Learning)と呼ばれる統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:29:32Z) - When and How Does In-Distribution Label Help Out-of-Distribution Detection? [38.874518492468965]
本稿では,OOD検出におけるIDラベルの影響を理論的に説明するための公式な理解を提供する。
我々は,OODデータからのIDデータの分離性について,グラフ理論を用いて厳密に解析する。
我々は、シミュレーションと実データの両方に経験的な結果を示し、理論的保証を検証し、洞察を補強する。
論文 参考訳(メタデータ) (2024-05-28T22:34:53Z) - EAT: Towards Long-Tailed Out-of-Distribution Detection [55.380390767978554]
本稿では,長い尾を持つOOD検出の課題に対処する。
主な困難は、尾クラスに属するサンプルとOODデータを区別することである。
本稿では,(1)複数の禁制クラスを導入して分布内クラス空間を拡大すること,(2)コンテキストリッチなOODデータに画像をオーバーレイすることでコンテキスト限定のテールクラスを拡大すること,の2つの簡単な考え方を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:47:13Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - Training OOD Detectors in their Natural Habitats [31.565635192716712]
アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。
近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。
我々は、自然にIDとOODの両方のサンプルで構成される野生の混合データを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T15:38:39Z) - Provably Robust Detection of Out-of-distribution Data (almost) for free [124.14121487542613]
ディープニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)データに対する高い過度な予測を生成することが知られている。
本稿では,認証可能なOOD検出器を標準分類器と組み合わせてOOD認識分類器を提案する。
このようにして、我々は2つの世界のベストを達成している。OOD検出は、分布内に近いOODサンプルであっても、予測精度を損なうことなく、非操作型OODデータに対する最先端のOOD検出性能に近接する。
論文 参考訳(メタデータ) (2021-06-08T11:40:49Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。