論文の概要: An Empirical Study on Robustness to Spurious Correlations using
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2007.06778v3
- Date: Tue, 11 Aug 2020 15:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:41:16.746559
- Title: An Empirical Study on Robustness to Spurious Correlations using
Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルを用いた純粋相関に対するロバスト性に関する実証的研究
- Authors: Lifu Tu, Garima Lalwani, Spandana Gella, He He
- Abstract要約: 近年の研究では、BERTのような事前学習された言語モデルが、データセットの素早い相関性を改善することが示されている。
彼らの成功の鍵は、突発的な相関が保たない少数の反例から一般化することである。
以上の結果から,突発的な相関を克服する上で,データの多様性の重要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 13.891423075375512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that pre-trained language models such as BERT improve
robustness to spurious correlations in the dataset. Intrigued by these results,
we find that the key to their success is generalization from a small amount of
counterexamples where the spurious correlations do not hold. When such minority
examples are scarce, pre-trained models perform as poorly as models trained
from scratch. In the case of extreme minority, we propose to use multi-task
learning (MTL) to improve generalization. Our experiments on natural language
inference and paraphrase identification show that MTL with the right auxiliary
tasks significantly improves performance on challenging examples without
hurting the in-distribution performance. Further, we show that the gain from
MTL mainly comes from improved generalization from the minority examples. Our
results highlight the importance of data diversity for overcoming spurious
correlations.
- Abstract(参考訳): 近年の研究では、BERTのような事前学習された言語モデルが、データセットの素早い相関性を改善することが示されている。
これらの結果に興味をそそられ、成功の鍵はスプリアス相関が成立しない少数の反例からの一般化であることがわかった。
このような少数例が少ない場合、事前訓練されたモデルは、スクラッチから訓練されたモデルと同じくらい性能が悪い。
極少数の場合、一般化を改善するためにマルチタスク学習(MTL)を提案する。
自然言語推論およびパラフレーズ同定実験により,適切な補助課題を持つMLLは,分配性能を損なうことなく,課題事例の性能を著しく向上することが示された。
さらに, MTL の優位性は主に, 少数例による一般化の改善によるものであることを示す。
以上の結果から,データ多様性の重要性が示唆された。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Demystifying Language Model Forgetting with Low-rank Example Associations [38.93348195407474]
大規模言語モデル(LLM)は、微調整時に上流データを忘れることに悩まされる。
我々は、言語モデリングや微調整後の命令チューニングの上流の例で発生する忘れを実証的に分析する。
論文 参考訳(メタデータ) (2024-06-20T06:46:23Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。