論文の概要: Are Sample-Efficient NLP Models More Robust?
- arxiv url: http://arxiv.org/abs/2210.06456v1
- Date: Wed, 12 Oct 2022 17:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:42:27.266857
- Title: Are Sample-Efficient NLP Models More Robust?
- Title(参考訳): サンプル効率の良いNLPモデルはよりロバストか?
- Authors: Nelson F. Liu and Ananya Kumar and Percy Liang and Robin Jia
- Abstract要約: 試料効率とロバスト性の関係について検討する。
3つのタスク、23のID-OOD設定、14のモデルにわたる実験では、サンプル効率とロバスト性の間に一貫した関係は示されていない。
2つのID-OODペアの詳細なケーススタディを行い、より優れたサンプル効率がより高いロバスト性をもたらすかどうかをよりよく理解する。
- 参考スコア(独自算出の注目度): 90.54786862811183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has observed that pre-trained models have higher
out-of-distribution (OOD) robustness when they are exposed to less
in-distribution (ID) training data (Radford et al., 2021). In particular,
zero-shot models (e.g., GPT-3 and CLIP) have higher robustness than
conventionally fine-tuned models, but these robustness gains fade as zero-shot
models are fine-tuned on more ID data. We study this relationship between
sample efficiency and robustness -- if two models have the same ID performance,
does the model trained on fewer examples (higher sample efficiency) perform
better OOD (higher robustness)?
Surprisingly, experiments across three tasks, 23 total ID-OOD settings, and
14 models do not reveal a consistent relationship between sample efficiency and
robustness -- while models with higher sample efficiency are sometimes more
robust, most often there is no change in robustness, with some cases even
showing decreased robustness. Since results vary on a case-by-case basis, we
conduct detailed case studies of two particular ID-OOD pairs (SST-2 -> IMDb
sentiment and SNLI -> HANS) to better understand why better sample efficiency
may or may not yield higher robustness; attaining such an understanding
requires case-by-case analysis of why models are not robust on a particular
ID-OOD setting and how modeling techniques affect model capabilities.
- Abstract(参考訳): 近年の研究では、事前学習したモデルは、より分散度(ID)の低いトレーニングデータに晒される場合、OOD(out-of-distriion)の堅牢性が高いことが観察されている(Radford et al., 2021)。
特に、ゼロショットモデル(例えば、GPT-3やCLIP)は従来の微調整モデルよりも堅牢性が高いが、ゼロショットモデルはより多くのIDデータに基づいて微調整されるため、これらの堅牢性は低下する。
2つのモデルが同一のID性能を持つ場合、より少ないサンプル(より高いサンプル効率)でトレーニングされたモデルは、より優れたOOD(より高い堅牢性)を実現するか?
驚くべきことに、3つのタスク、23のID-OOD設定、14のモデルにわたる実験では、サンプル効率と堅牢性の間に一貫性のある関係は示されていない。
ケース・バイ・ケース・バイ・ケース(ケース・バイ・ケース・ケース・バイ・ケース)によって異なる結果が得られたため、より優れたサンプル効率がより高いロバスト性をもたらすかどうかをよりよく理解するために、2つの特定のID-OODペア(SST-2 -> IMDb 感情とSNLI -> HANS)の詳細なケーススタディを行い、そのような理解を得るには、なぜモデルが特定のID-OOD設定で堅牢でないのか、モデル技術がモデル能力に与える影響をケース・バイ・ケース分析する必要がある。
関連論文リスト
- Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。
我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。
モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文 参考訳(メタデータ) (2025-02-07T10:01:32Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Domain Generalization Using Large Pretrained Models with Mixture-of-Adapters [33.401355417911084]
本研究は, OODシナリオの処理を改善し, 領域一般化問題に取り組むために, 大規模事前学習モデルの知識を活用することを目的とする。
我々は,大規模モデルで作業しながらOODロバスト性を効果的に維持するために,パラメータ効率のよい微調整(PEFT)技術を用いる。
実験と分析により、最も効果的なアプローチは、多様なモデルを集結させ、事前学習の規模を増大させることであることを確認した。
論文 参考訳(メタデータ) (2023-10-17T07:01:24Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Exploring The Landscape of Distributional Robustness for Question
Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。
多くの場合、モデルのバリエーションは堅牢性に影響を与えない。
我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文 参考訳(メタデータ) (2022-10-22T18:17:31Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。