論文の概要: Are All Unseen Data Out-of-Distribution?
- arxiv url: http://arxiv.org/abs/2312.16243v2
- Date: Tue, 2 Jan 2024 11:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:11:45.239582
- Title: Are All Unseen Data Out-of-Distribution?
- Title(参考訳): すべて、未公開のデータか?
- Authors: Songming Zhang, Yuxiao Luo, Qizhou Wang, Haoang Chi, Weikai Li, Bo
Han, Jinyan Li
- Abstract要約: 未知データの分布はアウト・オブ・ディストリビューション(OOD)として扱われている。
多くの証拠は、トレーニングデータのサイズの増加が、テストデータの一般化エラーを単調に減少させることを示唆している。
特に、トレーニングデータが複数のソースドメインを持ち、テストデータが分散ドリフトを含む場合、トレーニングデータのサイズが大きくなるにつれて、すべての一般化エラーが単調に減少するわけではない。
- 参考スコア(独自算出の注目度): 23.519013423909417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributions of unseen data have been all treated as out-of-distribution
(OOD), making their generalization a significant challenge. Much evidence
suggests that the size increase of training data can monotonically decrease
generalization errors in test data. However, this is not true from other
observations and analysis. In particular, when the training data have multiple
source domains and the test data contain distribution drifts, then not all
generalization errors on the test data decrease monotonically with the
increasing size of training data. Such a non-decreasing phenomenon is formally
investigated under a linear setting with empirical verification across varying
visual benchmarks. Motivated by these results, we redefine the OOD data as a
type of data outside the convex hull of the training domains and prove a new
generalization bound based on this new definition. It implies that the
effectiveness of a well-trained model can be guaranteed for the unseen data
that is within the convex hull of the training domains. But, for some data
beyond the convex hull, a non-decreasing error trend can happen. Therefore, we
investigate the performance of popular strategies such as data augmentation and
pre-training to overcome this issue. Moreover, we propose a novel reinforcement
learning selection algorithm in the source domains only that can deliver
superior performance over the baseline methods.
- Abstract(参考訳): unseenデータの分布は、すべてout-of-distribution(ood)として扱われ、一般化が大きな課題となっている。
多くの証拠は、トレーニングデータのサイズが増加すると、テストデータの一般化エラーが単調に減少することを示唆している。
しかし、これは他の観測や分析では当てはまらない。
特に、トレーニングデータが複数のソースドメインを持ち、テストデータが分散ドリフトを含む場合、テストデータの一般化エラーがトレーニングデータの増大とともに単調に減少するわけではない。
このような非減少現象は、様々な視覚的ベンチマークにまたがる経験的検証を伴う線形条件下で公式に研究される。
これらの結果により、OODデータをトレーニング領域の凸殻外のデータとして再定義し、この新しい定義に基づいて新たな一般化を証明した。
これは、訓練領域の凸内にある見えないデータに対して、十分に訓練されたモデルの有効性が保証されることを意味する。
しかし、凸船体以外のデータについては、非減少エラー傾向が発生する可能性がある。
そこで本研究では,データ強化や事前学習といった一般的な戦略の有効性について検討する。
さらに,ベースライン手法よりも優れた性能を実現するため,ソース領域における新たな強化学習選択アルゴリズムを提案する。
関連論文リスト
- Out-of-Distribution Learning with Human Feedback [26.398598663165636]
本稿では,人的フィードバックによるOOD学習のための新しい枠組みを提案する。
当社のフレームワークは、無償で利用可能な未ラベルデータに便乗しています。
人間のフィードバックを利用して、機械学習モデルの堅牢性と信頼性を高める。
論文 参考訳(メタデータ) (2024-08-14T18:49:27Z) - Rethinking Out-of-Distribution Detection on Imbalanced Data Distribution [38.844580833635725]
アーキテクチャ設計におけるバイアスを緩和し,不均衡なOOD検出器を増強する訓練時間正規化手法を提案する。
提案手法は,CIFAR10-LT,CIFAR100-LT,ImageNet-LTのベンチマークに対して一貫した改良を行う。
論文 参考訳(メタデータ) (2024-07-23T12:28:59Z) - On the Benefits of Over-parameterization for Out-of-Distribution Generalization [28.961538657831788]
本稿では,過度なオーバーフィット条件下でのアウト・オブ・ディストリビューション(OOD)損失を考慮した機械学習モデルの性能について検討する。
モデルパラメータ化のさらなる増大はOOD損失を著しく減少させることを示した。
これらの知見は、モデルアンサンブルによるOOD一般化の実証的な現象を説明する。
論文 参考訳(メタデータ) (2024-03-26T11:01:53Z) - Early Period of Training Impacts Out-of-Distribution Generalization [56.283944756315066]
ニューラルネットワークトレーニングの初期における学習力学とOOD一般化の関係について検討した。
トレーニング中に異なる時間にトレーニング可能なパラメータ数を選択することは、ID結果に極端に影響を及ぼすことを示す。
訓練初期におけるシャープネスの絶対値とフィッシャー情報の痕跡は,OOD一般化の指標にはならない。
論文 参考訳(メタデータ) (2024-03-22T13:52:53Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - LINe: Out-of-Distribution Detection by Leveraging Important Neurons [15.797257361788812]
本稿では,分布内データとOODデータ間のモデル出力の差を解析するための新しい側面を紹介する。
本稿では,分布検出のポストホックアウトのための新しい手法であるLINe( Leveraging Important Neurons)を提案する。
論文 参考訳(メタデータ) (2023-03-24T13:49:05Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。