論文の概要: Pretrained Transformers Improve Out-of-Distribution Robustness
- arxiv url: http://arxiv.org/abs/2004.06100v2
- Date: Thu, 16 Apr 2020 05:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:18:25.502509
- Title: Pretrained Transformers Improve Out-of-Distribution Robustness
- Title(参考訳): 予習変圧器は分散ロバスト性を改善する
- Authors: Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh
Krishnan, and Dawn Song
- Abstract要約: 7つのNLPデータセットのアウト・オブ・ディストリビューションの一般化を測定する。
本研究では,事前学習したトランスフォーマーの性能低下が著しく小さいことを示す。
どちらがロバスト性に影響を与えるかを調べ、より大きなモデルが必ずしもロバストであるとは限らないことを発見した。
- 参考スコア(独自算出の注目度): 72.38747394482247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although pretrained Transformers such as BERT achieve high accuracy on
in-distribution examples, do they generalize to new distributions? We
systematically measure out-of-distribution (OOD) generalization for seven NLP
datasets by constructing a new robustness benchmark with realistic distribution
shifts. We measure the generalization of previous models including bag-of-words
models, ConvNets, and LSTMs, and we show that pretrained Transformers'
performance declines are substantially smaller. Pretrained transformers are
also more effective at detecting anomalous or OOD examples, while many previous
models are frequently worse than chance. We examine which factors affect
robustness, finding that larger models are not necessarily more robust,
distillation can be harmful, and more diverse pretraining data can enhance
robustness. Finally, we show where future work can improve OOD robustness.
- Abstract(参考訳): BERTのような事前学習されたトランスフォーマーは、分布内例で高い精度を達成するが、それらは新しい分布に一般化するだろうか?
現実的な分布シフトを伴う新しいロバストネスベンチマークを構築することにより、7つのNLPデータセットに対するOOD(out-of-distriion)の一般化を体系的に測定する。
我々は,単語のバッグ・オブ・ワードモデル,ConvNets,LSTMsなどの先行モデルの一般化を測定し,事前学習したトランスフォーマーの性能低下が著しく小さいことを示す。
事前訓練されたトランスフォーマーは異常やOODの検出にも有効であるが、以前のモデルの多くは偶然よりもしばしば悪い。
より大規模なモデルは必ずしも堅牢ではなく、蒸留は有害であり、より多様な事前学習データは堅牢性を高めることができる。
最後に、今後の作業がOODの堅牢性を改善する方法を示す。
関連論文リスト
- Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders [56.47577824219207]
本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。
ファインチューニングのための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。
我々の経験的証拠は、Re Programmerは侵入力が少なく、より優れた下流モデルが得られることを示している。
論文 参考訳(メタデータ) (2024-03-16T04:19:48Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Combining pre-trained Vision Transformers and CIDER for Out Of Domain
Detection [0.774971301405295]
ほとんどの産業用パイプラインは、CNNやVision Transformersのような下流タスクのための事前訓練されたモデルに依存している。
本稿では,ドメイン外検出におけるモデルの性能について検討する。
論文 参考訳(メタデータ) (2023-09-06T14:41:55Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Pretrained Transformers Do not Always Improve Robustness [23.227505403565903]
PTはノイズの多いデータに対して従来のモデルよりもロバストな表現を提供していないことを示す。
OODの一般化を改善するために, PTを逆フィルタリング機構で拡張する。
しかし,一般化の増大は必ずしもロバスト性を高めるものではない。
論文 参考訳(メタデータ) (2022-10-14T09:30:36Z) - Improving Out-of-Distribution Generalization by Adversarial Training
with Structured Priors [17.936426699670864]
サンプルワイド・アドバイザリ・トレーニング (AT) では, アウト・オブ・ディストリビューション (OOD) の一般化が限定的に改善されていることを示す。
OOD-robustモデルのトレーニングのために,低ランク構造をもつ2つのAT変種を提案する。
提案手法は,経験的リスク最小化(ERM)とサンプルワイドATより優れている。
論文 参考訳(メタデータ) (2022-10-13T07:37:42Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - How Effective is Task-Agnostic Data Augmentation for Pretrained
Transformers? [7.727662147015879]
タスクに依存しないデータ拡張は、事前訓練されたモデルでもコンピュータビジョンにおいて広く有効であることが証明されている。
事前訓練されたトランスフォーマーに適用した場合、これらのテクニックが本当に有効か尋ねる。
非事前学習モデルに対する強い改善を報告した手法は、事前学習した変換器の性能を一貫して改善することができない。
論文 参考訳(メタデータ) (2020-10-05T03:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。