論文の概要: Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data
- arxiv url: http://arxiv.org/abs/2302.01381v2
- Date: Sat, 28 Oct 2023 19:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:30:29.371041
- Title: Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data
- Title(参考訳): 訓練データが異なるモデルに対する自然分布シフトに対する効果的なロバスト性
- Authors: Zhouxing Shi, Nicholas Carlini, Ananth Balashankar, Ludwig Schmidt,
Cho-Jui Hsieh, Alex Beutel, Yao Qin
- Abstract要約: 効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 113.21868839569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: "Effective robustness" measures the extra out-of-distribution (OOD)
robustness beyond what can be predicted from the in-distribution (ID)
performance. Existing effective robustness evaluations typically use a single
test set such as ImageNet to evaluate the ID accuracy. This becomes problematic
when evaluating models trained on different data distributions, e.g., comparing
models trained on ImageNet vs. zero-shot language-image pre-trained models
trained on LAION. In this paper, we propose a new evaluation metric to evaluate
and compare the effective robustness of models trained on different data. To do
this, we control for the accuracy on multiple ID test sets that cover the
training distributions for all the evaluated models. Our new evaluation metric
provides a better estimate of effective robustness when there are models with
different training data. It may also explain the surprising effective
robustness gains of zero-shot CLIP-like models exhibited in prior works that
used ImageNet as the only ID test set, while the gains diminish under our new
evaluation. Additional artifacts including interactive visualizations are
provided at https://shizhouxing.github.io/effective-robustness.
- Abstract(参考訳): 効果的なロバスト性」は、分散(id)性能から予測できる以上の余分な分散(ood)ロバスト性を測定する。
既存の有効ロバスト性評価では、通常はimagenetのような単一のテストセットを使用してid精度を評価する。
例えば、ImageNetでトレーニングされたモデルとLAIONでトレーニングされたゼロショット言語イメージでトレーニングされたモデルを比較すると、これは問題になる。
本稿では,異なるデータに基づいて学習したモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
これを実現するために、評価されたモデルすべてに対するトレーニング分布をカバーする複数のIDテストセットの精度を制御する。
我々の新しい評価基準は、異なるトレーニングデータを持つモデルが存在する場合の効果的なロバスト性をよりよく推定する。
また、ImageNetを唯一のIDテストセットとして使用した以前の研究で示されたゼロショットCLIPライクなモデルの驚くべき効果的なロバスト性向上についても説明できます。
インタラクティブなビジュアライゼーションを含む追加のアーティファクトは、https://shizhouxing.github.io/ effective-robustnessで提供される。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。