論文の概要: The Value of Out-of-Distribution Data
- arxiv url: http://arxiv.org/abs/2208.10967v4
- Date: Mon, 10 Jul 2023 09:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:25:00.040687
- Title: The Value of Out-of-Distribution Data
- Title(参考訳): アウト・オブ・ディストリビューションデータの価値
- Authors: Ashwin De Silva, Rahul Ramesh, Carey E. Priebe, Pratik Chaudhari,
Joshua T. Vogelstein
- Abstract要約: 我々は,タスクの一般化誤差がOODサンプル数の非単調関数であることを示す。
言い換えれば、少量のOODデータに対するトレーニングには価値があります。
- 参考スコア(独自算出の注目度): 28.85184823032929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We expect the generalization error to improve with more samples from a
similar task, and to deteriorate with more samples from an out-of-distribution
(OOD) task. In this work, we show a counter-intuitive phenomenon: the
generalization error of a task can be a non-monotonic function of the number of
OOD samples. As the number of OOD samples increases, the generalization error
on the target task improves before deteriorating beyond a threshold. In other
words, there is value in training on small amounts of OOD data. We use Fisher's
Linear Discriminant on synthetic datasets and deep networks on computer vision
benchmarks such as MNIST, CIFAR-10, CINIC-10, PACS and DomainNet to demonstrate
and analyze this phenomenon. In the idealistic setting where we know which
samples are OOD, we show that these non-monotonic trends can be exploited using
an appropriately weighted objective of the target and OOD empirical risk. While
its practical utility is limited, this does suggest that if we can detect OOD
samples, then there may be ways to benefit from them. When we do not know which
samples are OOD, we show how a number of go-to strategies such as
data-augmentation, hyper-parameter optimization, and pre-training are not
enough to ensure that the target generalization error does not deteriorate with
the number of OOD samples in the dataset.
- Abstract(参考訳): 一般化誤差は、類似したタスクからより多くのサンプルで改善され、アウト・オブ・ディストリビューション(OOD)タスクからより多くのサンプルで悪化することが期待される。
本研究では,タスクの一般化誤差をoodサンプル数の非単調関数とする逆直観的現象を示す。
OODサンプルの数が増加するにつれて、目標タスクの一般化誤差は閾値を超えて劣化する前に改善される。
言い換えれば、少量のOODデータに対するトレーニングには価値があります。
mnist, cifar-10, cinic-10, pacs, domainnetなどのコンピュータビジョンベンチマークにおいて,合成データセットとディープネットワークに対するfisherの線形判別法を用いて,この現象の実証と解析を行う。
サンプルがOODであるかを知る理想主義的な環境では、対象の適切な重み付けとOOD経験的リスクを用いて、これらの非単調な傾向を活用できることが示される。
実用性は限られていますが,OODサンプルを検出できれば,そのメリットを享受する方法があるかも知れません。
どのサンプルがOODであるかわからない場合、データセット内のOODサンプル数でターゲットの一般化誤差が悪化しないように、データ拡張、ハイパーパラメータ最適化、事前トレーニングといった多くのゴート戦略が不十分であることを示す。
関連論文リスト
- Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - ReSmooth: Detecting and Utilizing OOD Samples when Training with Data
Augmentation [57.38418881020046]
最近のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。
多様性の高い増分戦略は、通常、アウト・オブ・ディストリビューション(OOD)の増分サンプルを導入する。
ReSmoothは、まず、拡張サンプル中のOODサンプルを検知し、それらを活用するフレームワークである。
論文 参考訳(メタデータ) (2022-05-25T09:29:27Z) - Understanding, Detecting, and Separating Out-of-Distribution Samples and
Adversarial Samples in Text Classification [80.81532239566992]
本稿では,2種類の異常 (OOD と Adv のサンプル) と,3つの側面の内分布 (ID) を比較した。
OODサンプルは第1層から始まる収差を露呈するが,Advサンプルの異常はモデル深層まで出現しない。
隠れ表現と出力確率を用いて,ID,OOD,Advのサンプルを分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T12:11:59Z) - Training OOD Detectors in their Natural Habitats [31.565635192716712]
アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。
近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。
我々は、自然にIDとOODの両方のサンプルで構成される野生の混合データを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T15:38:39Z) - WOOD: Wasserstein-based Out-of-Distribution Detection [6.163329453024915]
ディープ・ニューラル・ネットワークに基づく分類器のトレーニングデータは、通常同じ分布からサンプリングされる。
トレーニングサンプルから遠く離れた分布からテストサンプルの一部を引き出すと、トレーニングされたニューラルネットワークはこれらのOODサンプルに対して高い信頼性の予測を行う傾向にある。
本稿では,これらの課題を克服するため,Wasserstein を用いたアウト・オブ・ディストリビューション検出(WOOD)手法を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:35:15Z) - Label Smoothed Embedding Hypothesis for Out-of-Distribution Detection [72.35532598131176]
我々は,$k$-NN 密度推定値を用いて OOD サンプルを検出する教師なし手法を提案する。
emphLabel Smoothed Embedding hypothesis と呼ばれるラベル平滑化に関する最近の知見を活用する。
提案手法は,多くのOODベースラインを上回り,新しい有限サンプル高確率統計結果を提供することを示す。
論文 参考訳(メタデータ) (2021-02-09T21:04:44Z) - On The Consistency Training for Open-Set Semi-Supervised Learning [44.046578996049654]
我々は,OODサンプルが低次元空間と高次元空間のトレーニングに与える影響について検討した。
提案手法はOODサンプルをよりよく利用し,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-01-19T12:38:17Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Detecting Out-of-Distribution Examples with In-distribution Examples and
Gram Matrices [8.611328447624679]
ディープニューラルネットワークは、アウト・オブ・ディストリビューション(Out-of-Distribution)の例で示すと、信頼性と誤った予測をもたらす。
本稿では,行動パターンとクラス予測の不整合を識別し,OODのサンプルを検出することを提案する。
グラム行列による活動パターンの特徴付けとグラム行列値の異常の同定により,高いOOD検出率が得られることがわかった。
論文 参考訳(メタデータ) (2019-12-28T19:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。