論文の概要: Are Sample-Efficient NLP Models More Robust?
- arxiv url: http://arxiv.org/abs/2210.06456v1
- Date: Wed, 12 Oct 2022 17:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:42:27.266857
- Title: Are Sample-Efficient NLP Models More Robust?
- Title(参考訳): サンプル効率の良いNLPモデルはよりロバストか?
- Authors: Nelson F. Liu and Ananya Kumar and Percy Liang and Robin Jia
- Abstract要約: 試料効率とロバスト性の関係について検討する。
3つのタスク、23のID-OOD設定、14のモデルにわたる実験では、サンプル効率とロバスト性の間に一貫した関係は示されていない。
2つのID-OODペアの詳細なケーススタディを行い、より優れたサンプル効率がより高いロバスト性をもたらすかどうかをよりよく理解する。
- 参考スコア(独自算出の注目度): 90.54786862811183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has observed that pre-trained models have higher
out-of-distribution (OOD) robustness when they are exposed to less
in-distribution (ID) training data (Radford et al., 2021). In particular,
zero-shot models (e.g., GPT-3 and CLIP) have higher robustness than
conventionally fine-tuned models, but these robustness gains fade as zero-shot
models are fine-tuned on more ID data. We study this relationship between
sample efficiency and robustness -- if two models have the same ID performance,
does the model trained on fewer examples (higher sample efficiency) perform
better OOD (higher robustness)?
Surprisingly, experiments across three tasks, 23 total ID-OOD settings, and
14 models do not reveal a consistent relationship between sample efficiency and
robustness -- while models with higher sample efficiency are sometimes more
robust, most often there is no change in robustness, with some cases even
showing decreased robustness. Since results vary on a case-by-case basis, we
conduct detailed case studies of two particular ID-OOD pairs (SST-2 -> IMDb
sentiment and SNLI -> HANS) to better understand why better sample efficiency
may or may not yield higher robustness; attaining such an understanding
requires case-by-case analysis of why models are not robust on a particular
ID-OOD setting and how modeling techniques affect model capabilities.
- Abstract(参考訳): 近年の研究では、事前学習したモデルは、より分散度(ID)の低いトレーニングデータに晒される場合、OOD(out-of-distriion)の堅牢性が高いことが観察されている(Radford et al., 2021)。
特に、ゼロショットモデル(例えば、GPT-3やCLIP)は従来の微調整モデルよりも堅牢性が高いが、ゼロショットモデルはより多くのIDデータに基づいて微調整されるため、これらの堅牢性は低下する。
2つのモデルが同一のID性能を持つ場合、より少ないサンプル(より高いサンプル効率)でトレーニングされたモデルは、より優れたOOD(より高い堅牢性)を実現するか?
驚くべきことに、3つのタスク、23のID-OOD設定、14のモデルにわたる実験では、サンプル効率と堅牢性の間に一貫性のある関係は示されていない。
ケース・バイ・ケース・バイ・ケース(ケース・バイ・ケース・ケース・バイ・ケース)によって異なる結果が得られたため、より優れたサンプル効率がより高いロバスト性をもたらすかどうかをよりよく理解するために、2つの特定のID-OODペア(SST-2 -> IMDb 感情とSNLI -> HANS)の詳細なケーススタディを行い、そのような理解を得るには、なぜモデルが特定のID-OOD設定で堅牢でないのか、モデル技術がモデル能力に与える影響をケース・バイ・ケース分析する必要がある。
関連論文リスト
- Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Exploring The Landscape of Distributional Robustness for Question
Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。
多くの場合、モデルのバリエーションは堅牢性に影響を与えない。
我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文 参考訳(メタデータ) (2022-10-22T18:17:31Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。