Fugu-MT 論文翻訳(概要): Are Sample-Efficient NLP Models More Robust?

論文の概要: Are Sample-Efficient NLP Models More Robust?

arxiv url: http://arxiv.org/abs/2210.06456v1
Date: Wed, 12 Oct 2022 17:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 12:42:27.266857
Title: Are Sample-Efficient NLP Models More Robust?
Title（参考訳）: サンプル効率の良いNLPモデルはよりロバストか?
Authors: Nelson F. Liu and Ananya Kumar and Percy Liang and Robin Jia
Abstract要約: 試料効率とロバスト性の関係について検討する。 3つのタスク、23のID-OOD設定、14のモデルにわたる実験では、サンプル効率とロバスト性の間に一貫した関係は示されていない。 2つのID-OODペアの詳細なケーススタディを行い、より優れたサンプル効率がより高いロバスト性をもたらすかどうかをよりよく理解する。
参考スコア（独自算出の注目度）: 90.54786862811183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has observed that pre-trained models have higher out-of-distribution (OOD) robustness when they are exposed to less in-distribution (ID) training data (Radford et al., 2021). In particular, zero-shot models (e.g., GPT-3 and CLIP) have higher robustness than conventionally fine-tuned models, but these robustness gains fade as zero-shot models are fine-tuned on more ID data. We study this relationship between sample efficiency and robustness -- if two models have the same ID performance, does the model trained on fewer examples (higher sample efficiency) perform better OOD (higher robustness)? Surprisingly, experiments across three tasks, 23 total ID-OOD settings, and 14 models do not reveal a consistent relationship between sample efficiency and robustness -- while models with higher sample efficiency are sometimes more robust, most often there is no change in robustness, with some cases even showing decreased robustness. Since results vary on a case-by-case basis, we conduct detailed case studies of two particular ID-OOD pairs (SST-2 -> IMDb sentiment and SNLI -> HANS) to better understand why better sample efficiency may or may not yield higher robustness; attaining such an understanding requires case-by-case analysis of why models are not robust on a particular ID-OOD setting and how modeling techniques affect model capabilities.
Abstract（参考訳）: 近年の研究では、事前学習したモデルは、より分散度(ID)の低いトレーニングデータに晒される場合、OOD(out-of-distriion)の堅牢性が高いことが観察されている(Radford et al., 2021)。特に、ゼロショットモデル(例えば、GPT-3やCLIP)は従来の微調整モデルよりも堅牢性が高いが、ゼロショットモデルはより多くのIDデータに基づいて微調整されるため、これらの堅牢性は低下する。 2つのモデルが同一のID性能を持つ場合、より少ないサンプル(より高いサンプル効率)でトレーニングされたモデルは、より優れたOOD(より高い堅牢性)を実現するか? 驚くべきことに、3つのタスク、23のID-OOD設定、14のモデルにわたる実験では、サンプル効率と堅牢性の間に一貫性のある関係は示されていない。ケース・バイ・ケース・バイ・ケース(ケース・バイ・ケース・ケース・バイ・ケース)によって異なる結果が得られたため、より優れたサンプル効率がより高いロバスト性をもたらすかどうかをよりよく理解するために、2つの特定のID-OODペア(SST-2 -> IMDb 感情とSNLI -> HANS)の詳細なケーススタディを行い、そのような理解を得るには、なぜモデルが特定のID-OOD設定で堅牢でないのか、モデル技術がモデル能力に与える影響をケース・バイ・ケース分析する必要がある。

関連論文リスト

EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。 EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文参考訳（メタデータ） (2025-06-04T02:11:54Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文参考訳（メタデータ） (2025-02-07T10:01:32Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Clarifying Myths About the Relationship Between Shape Bias, Accuracy, and Robustness [18.55761892159021]
ディープラーニングモデルは、トレーニングセットと同じ分布のイメージに対して評価すると、うまく機能する。ディープラーニングモデルは、トレーニングセットと同じ分布のイメージに対して評価すると、うまく機能する。モデルの入力画像に小さなぼかしを適用して、アウト・オブ・ディストリビューション(OOD)データでモデルに供給することで、モデルの精度を著しく低下させることができる。データ拡張は、OODデータに対するモデルロバスト性を改善するための、十分に実践された方法の1つである。
論文参考訳（メタデータ） (2024-06-07T15:21:00Z)
Domain Generalization Using Large Pretrained Models with Mixture-of-Adapters [33.401355417911084]
本研究は, OODシナリオの処理を改善し, 領域一般化問題に取り組むために, 大規模事前学習モデルの知識を活用することを目的とする。我々は,大規模モデルで作業しながらOODロバスト性を効果的に維持するために,パラメータ効率のよい微調整(PEFT)技術を用いる。実験と分析により、最も効果的なアプローチは、多様なモデルを集結させ、事前学習の規模を増大させることであることを確認した。
論文参考訳（メタデータ） (2023-10-17T07:01:24Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Effective Robustness against Natural Distribution Shifts for Models with Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-02-02T19:28:41Z)
Exploring The Landscape of Distributional Robustness for Question Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。多くの場合、モデルのバリエーションは堅牢性に影響を与えない。我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文参考訳（メタデータ） (2022-10-22T18:17:31Z)
Understanding and Testing Generalization of Deep Networks on Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文参考訳（メタデータ） (2021-11-17T15:29:07Z)
Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文参考訳（メタデータ） (2021-11-09T03:23:05Z)
The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文参考訳（メタデータ） (2021-06-30T06:21:42Z)
On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文参考訳（メタデータ） (2021-06-02T00:48:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。