論文の概要: On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law
- arxiv url: http://arxiv.org/abs/2005.09241v1
- Date: Tue, 19 May 2020 06:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:31:43.946356
- Title: On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law
- Title(参考訳): 分配外テストの価値について--グッドハートの法則の例
- Authors: Damien Teney, Kushal Kafle, Robik Shrestha, Ehsan Abbasnejad,
Christopher Kanan, Anton van den Hengel
- Abstract要約: VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。
ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。
ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
- 参考スコア(独自算出の注目度): 78.10523907729642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution (OOD) testing is increasingly popular for evaluating a
machine learning system's ability to generalize beyond the biases of a training
set. OOD benchmarks are designed to present a different joint distribution of
data and labels between training and test time. VQA-CP has become the standard
OOD benchmark for visual question answering, but we discovered three troubling
practices in its current use. First, most published methods rely on explicit
knowledge of the construction of the OOD splits. They often rely on
``inverting'' the distribution of labels, e.g. answering mostly 'yes' when the
common training answer is 'no'. Second, the OOD test set is used for model
selection. Third, a model's in-domain performance is assessed after retraining
it on in-domain splits (VQA v2) that exhibit a more balanced distribution of
labels. These three practices defeat the objective of evaluating
generalization, and put into question the value of methods specifically
designed for this dataset. We show that embarrassingly-simple methods,
including one that generates answers at random, surpass the state of the art on
some question types. We provide short- and long-term solutions to avoid these
pitfalls and realize the benefits of OOD evaluation.
- Abstract(参考訳): アウト・オブ・ディストリビューション(ood)テストは、トレーニングセットのバイアスを超えて一般化する機械学習システムの能力を評価するためにますます人気がある。
OODベンチマークは、トレーニングとテスト時間の間に異なるデータとラベルの結合分布を示すように設計されている。
VQA-CPは視覚的質問応答の標準的なOODベンチマークとなっているが、現状では3つの問題がある。
第一に、ほとんどの手法はOOD分割の構成に関する明示的な知識に依存している。
例えば、一般的なトレーニング回答が'no'である場合、ほとんど'yes'と答えるなどである。
第二に、OODテストセットはモデル選択に使用される。
第3に、モデルのドメイン内性能は、ラベルのよりバランスの取れた分布を示すドメイン内分割(VQA v2)で再トレーニングした後に評価される。
これら3つのプラクティスは、一般化を評価する目的を破り、このデータセットのために特別に設計されたメソッドの価値に疑問を投げかけた。
ランダムに回答を生成する手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を上回っていることを示す。
我々は、これらの落とし穴を回避し、OOD評価の利点を実現するために、短期および長期のソリューションを提供する。
関連論文リスト
- EAT: Towards Long-Tailed Out-of-Distribution Detection [55.380390767978554]
本稿では,長い尾を持つOOD検出の課題に対処する。
主な困難は、尾クラスに属するサンプルとOODデータを区別することである。
本稿では,(1)複数の禁制クラスを導入して分布内クラス空間を拡大すること,(2)コンテキストリッチなOODデータに画像をオーバーレイすることでコンテキスト限定のテールクラスを拡大すること,の2つの簡単な考え方を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:47:13Z) - Large Class Separation is not what you need for Relational
Reasoning-based OOD Detection [12.578844450586]
Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。
これらの手法の多くは、既知のデータの学習段階を利用しており、これは正規性の概念を捉えるためのモデル(または微調整)を訓練することを意味する。
実行可能な代替手段は、大きな事前訓練されたモデルによって生成された埋め込み空間の類似性を評価することであり、それ以上の学習は行わない。
論文 参考訳(メタデータ) (2023-07-12T14:10:15Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Breaking Down Out-of-Distribution Detection: Many Methods Based on OOD
Training Data Estimate a Combination of the Same Core Quantities [104.02531442035483]
本研究の目的は,OOD検出手法の暗黙的なスコアリング機能を識別すると同時に,共通の目的を認識することである。
内分布と外分布の2値差はOOD検出問題のいくつかの異なる定式化と等価であることを示す。
また, 外乱露光で使用される信頼損失は, 理論上最適のスコアリング関数と非自明な方法で異なる暗黙的なスコアリング関数を持つことを示した。
論文 参考訳(メタデータ) (2022-06-20T16:32:49Z) - Introspective Distillation for Robust Question Answering [70.18644911309468]
質問応答(QA)モデルは、例えば、視覚的QAに先行する言語や、読解における位置バイアスなど、データのバイアスを利用するためによく知られている。
近年の脱バイアス法は, 分配内(ID)性能のかなりの犠牲を伴い, 分配外(OOD)の一般化性を良好に達成している。
IntroD(Introspective Distillation)と呼ばれる新しい脱湿法を提案し,両者のQAを最大限に活用する。
論文 参考訳(メタデータ) (2021-11-01T15:30:15Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。