論文の概要: The Value of Out-of-Distribution Data
- arxiv url: http://arxiv.org/abs/2208.10967v4
- Date: Mon, 10 Jul 2023 09:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:25:00.040687
- Title: The Value of Out-of-Distribution Data
- Title(参考訳): アウト・オブ・ディストリビューションデータの価値
- Authors: Ashwin De Silva, Rahul Ramesh, Carey E. Priebe, Pratik Chaudhari,
Joshua T. Vogelstein
- Abstract要約: 我々は,タスクの一般化誤差がOODサンプル数の非単調関数であることを示す。
言い換えれば、少量のOODデータに対するトレーニングには価値があります。
- 参考スコア(独自算出の注目度): 28.85184823032929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We expect the generalization error to improve with more samples from a
similar task, and to deteriorate with more samples from an out-of-distribution
(OOD) task. In this work, we show a counter-intuitive phenomenon: the
generalization error of a task can be a non-monotonic function of the number of
OOD samples. As the number of OOD samples increases, the generalization error
on the target task improves before deteriorating beyond a threshold. In other
words, there is value in training on small amounts of OOD data. We use Fisher's
Linear Discriminant on synthetic datasets and deep networks on computer vision
benchmarks such as MNIST, CIFAR-10, CINIC-10, PACS and DomainNet to demonstrate
and analyze this phenomenon. In the idealistic setting where we know which
samples are OOD, we show that these non-monotonic trends can be exploited using
an appropriately weighted objective of the target and OOD empirical risk. While
its practical utility is limited, this does suggest that if we can detect OOD
samples, then there may be ways to benefit from them. When we do not know which
samples are OOD, we show how a number of go-to strategies such as
data-augmentation, hyper-parameter optimization, and pre-training are not
enough to ensure that the target generalization error does not deteriorate with
the number of OOD samples in the dataset.
- Abstract(参考訳): 一般化誤差は、類似したタスクからより多くのサンプルで改善され、アウト・オブ・ディストリビューション(OOD)タスクからより多くのサンプルで悪化することが期待される。
本研究では,タスクの一般化誤差をoodサンプル数の非単調関数とする逆直観的現象を示す。
OODサンプルの数が増加するにつれて、目標タスクの一般化誤差は閾値を超えて劣化する前に改善される。
言い換えれば、少量のOODデータに対するトレーニングには価値があります。
mnist, cifar-10, cinic-10, pacs, domainnetなどのコンピュータビジョンベンチマークにおいて,合成データセットとディープネットワークに対するfisherの線形判別法を用いて,この現象の実証と解析を行う。
サンプルがOODであるかを知る理想主義的な環境では、対象の適切な重み付けとOOD経験的リスクを用いて、これらの非単調な傾向を活用できることが示される。
実用性は限られていますが,OODサンプルを検出できれば,そのメリットを享受する方法があるかも知れません。
どのサンプルがOODであるかわからない場合、データセット内のOODサンプル数でターゲットの一般化誤差が悪化しないように、データ拡張、ハイパーパラメータ最適化、事前トレーニングといった多くのゴート戦略が不十分であることを示す。
関連論文リスト
- Going Beyond Conventional OOD Detection [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、重要なアプリケーションにディープラーニングモデルの安全なデプロイを保証するために重要である。
従来型OOD検出(ASCOOD)への統一的アプローチを提案する。
提案手法は, スパイラル相関の影響を効果的に軽減し, 微粒化特性の獲得を促す。
論文 参考訳(メタデータ) (2024-11-16T13:04:52Z) - Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders [56.47577824219207]
本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。
ファインチューニングのための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。
我々の経験的証拠は、Re Programmerは侵入力が少なく、より優れた下流モデルが得られることを示している。
論文 参考訳(メタデータ) (2024-03-16T04:19:48Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - ReSmooth: Detecting and Utilizing OOD Samples when Training with Data
Augmentation [57.38418881020046]
最近のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。
多様性の高い増分戦略は、通常、アウト・オブ・ディストリビューション(OOD)の増分サンプルを導入する。
ReSmoothは、まず、拡張サンプル中のOODサンプルを検知し、それらを活用するフレームワークである。
論文 参考訳(メタデータ) (2022-05-25T09:29:27Z) - Understanding, Detecting, and Separating Out-of-Distribution Samples and
Adversarial Samples in Text Classification [80.81532239566992]
本稿では,2種類の異常 (OOD と Adv のサンプル) と,3つの側面の内分布 (ID) を比較した。
OODサンプルは第1層から始まる収差を露呈するが,Advサンプルの異常はモデル深層まで出現しない。
隠れ表現と出力確率を用いて,ID,OOD,Advのサンプルを分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T12:11:59Z) - Training OOD Detectors in their Natural Habitats [31.565635192716712]
アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。
近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。
我々は、自然にIDとOODの両方のサンプルで構成される野生の混合データを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T15:38:39Z) - Label Smoothed Embedding Hypothesis for Out-of-Distribution Detection [72.35532598131176]
我々は,$k$-NN 密度推定値を用いて OOD サンプルを検出する教師なし手法を提案する。
emphLabel Smoothed Embedding hypothesis と呼ばれるラベル平滑化に関する最近の知見を活用する。
提案手法は,多くのOODベースラインを上回り,新しい有限サンプル高確率統計結果を提供することを示す。
論文 参考訳(メタデータ) (2021-02-09T21:04:44Z) - On The Consistency Training for Open-Set Semi-Supervised Learning [44.046578996049654]
我々は,OODサンプルが低次元空間と高次元空間のトレーニングに与える影響について検討した。
提案手法はOODサンプルをよりよく利用し,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-01-19T12:38:17Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Detecting Out-of-Distribution Examples with In-distribution Examples and
Gram Matrices [8.611328447624679]
ディープニューラルネットワークは、アウト・オブ・ディストリビューション(Out-of-Distribution)の例で示すと、信頼性と誤った予測をもたらす。
本稿では,行動パターンとクラス予測の不整合を識別し,OODのサンプルを検出することを提案する。
グラム行列による活動パターンの特徴付けとグラム行列値の異常の同定により,高いOOD検出率が得られることがわかった。
論文 参考訳(メタデータ) (2019-12-28T19:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。