論文の概要: ID and OOD Performance Are Sometimes Inversely Correlated on Real-world
Datasets
- arxiv url: http://arxiv.org/abs/2209.00613v1
- Date: Thu, 1 Sep 2022 17:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:31:06.252352
- Title: ID and OOD Performance Are Sometimes Inversely Correlated on Real-world
Datasets
- Title(参考訳): IDとOODのパフォーマンスは実世界のデータセットと逆相関することがある
- Authors: Damien Teney, Seong Joon Oh, Ehsan Abbasnejad
- Abstract要約: IDとOODのパフォーマンスの逆相関は、実世界のベンチマークで起こります。
WILDS-Camelyon17データセットに、複数の訓練エポックとランダムシードのモデルを用いてパターンの例を示す。
- 参考スコア(独自算出の注目度): 34.64891306350952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several studies have empirically compared in-distribution (ID) and
out-of-distribution (OOD) performance of various models. They report frequent
positive correlations on benchmarks in computer vision and NLP. Surprisingly,
they never observe inverse correlations suggesting necessary trade-offs. This
matters to determine whether ID performance can serve as a proxy for OOD
generalization.
This short paper shows that inverse correlations between ID and OOD
performance do happen in real-world benchmarks. They may have been missed in
past studies because of a biased selection of models. We show an example of the
pattern on the WILDS-Camelyon17 dataset, using models from multiple training
epochs and random seeds. Our observations are particularly striking on models
trained with a regularizer that diversifies the solutions to the ERM objective.
We nuance recommendations and conclusions made in past studies. (1) High OOD
performance does sometimes require trading off ID performance. (2) Focusing on
ID performance alone may not lead to optimal OOD performance: it can lead to
diminishing and eventually negative returns in OOD performance. (3) Our example
reminds that empirical studies only chart regimes achievable with existing
methods: care is warranted in deriving prescriptive recommendations.
- Abstract(参考訳): いくつかの研究では、様々なモデルの分布内(ID)と分布外(OOD)のパフォーマンスを実証的に比較している。
彼らはコンピュータビジョンとNLPのベンチマークで頻繁に正の相関を報告した。
驚くべきことに、彼らは必要なトレードオフを示す逆相関を決して観察しない。
これは、IDパフォーマンスがOOD一般化のプロキシとして機能するかどうかを決定するために重要である。
本稿では,実世界のベンチマークにおいて,IDとOOD性能の逆相関が生じることを示す。
モデルの選択が偏っているため、過去の研究で見落とされた可能性がある。
WILDS-Camelyon17データセットに、複数の訓練エポックとランダムシードのモデルを用いてパターンの例を示す。
我々の観察は、ERMの目的に対する解を多様化する正規化器で訓練されたモデルに特に顕著である。
我々は過去の研究でなされた推薦と結論を否定する。
1)高OOD性能にはID性能のトレードオフが必要になることがある。
2) ID 性能のみに注目すると OOD 性能が最適になる訳ではなく,OOD 性能が低下し,最終的に負のリターンが生じる可能性がある。
(3)具体例では,実証研究は既存の手法で達成可能な制度を表わすのみであり,規範的勧告の導出はケアが保証される。
関連論文リスト
- Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Rethinking Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
我々は,これらのモデルが視覚的質問応答のタスクにおいて,分布外一般化の貧弱さを示すことを観察した。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z) - Introspective Distillation for Robust Question Answering [70.18644911309468]
質問応答(QA)モデルは、例えば、視覚的QAに先行する言語や、読解における位置バイアスなど、データのバイアスを利用するためによく知られている。
近年の脱バイアス法は, 分配内(ID)性能のかなりの犠牲を伴い, 分配外(OOD)の一般化性を良好に達成している。
IntroD(Introspective Distillation)と呼ばれる新しい脱湿法を提案し,両者のQAを最大限に活用する。
論文 参考訳(メタデータ) (2021-11-01T15:30:15Z) - Semantically Coherent Out-of-Distribution Detection [26.224146828317277]
現在のアウト・オブ・ディストリビューション(OOD)検出ベンチマークは、ひとつのデータセットをイン・ディストリビューション(ID)として定義し、他のすべてのデータセットをOODとして定義することで、一般的に構築されている。
ベンチマークを再設計し、セマンティック・コヒーレント・アウト・オブ・ディストリビューション検出(SC-OOD)を提案する。
本手法は,SC-OODベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-26T17:53:32Z) - BEDS-Bench: Behavior of EHR-models under Distributional Shift--A
Benchmark [21.040754460129854]
OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースする。
BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能の低下が判明した。
論文 参考訳(メタデータ) (2021-07-17T05:53:24Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。