論文の概要: GLUE-X: Evaluating Natural Language Understanding Models from an
Out-of-distribution Generalization Perspective
- arxiv url: http://arxiv.org/abs/2211.08073v1
- Date: Tue, 15 Nov 2022 11:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 12:55:11.679570
- Title: GLUE-X: Evaluating Natural Language Understanding Models from an
Out-of-distribution Generalization Perspective
- Title(参考訳): GLUE-X:分布外一般化の観点からの自然言語理解モデルの評価
- Authors: Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang, Hanmeng
Liu, Jindong Wang, Xing Xie, Yue Zhang
- Abstract要約: 本稿では,GLUE-Xという統一ベンチマークの確立に向けた最初の試みを行う。
我々は、OODテストデータとして13の公開データセットを収集し、一般的なemph18モデルよりも8つの古典的NLPタスクの評価を行う。
- 参考スコア(独自算出の注目度): 36.24251509242988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) improve the model generalization by
leveraging massive data as the training corpus in the pre-training phase.
However, currently, the out-of-distribution (OOD) generalization becomes a
generally ill-posed problem, even for the large-scale PLMs in natural language
understanding tasks, which prevents the deployment of NLP methods in the real
world. To facilitate the research in this direction, this paper makes the first
attempt to establish a unified benchmark named GLUE-X, highlighting the
importance of OOD robustness and providing insights on how to measure the
robustness of a model and how to improve it. To this end, we collect 13
publicly available datasets as OOD test data, and conduct evaluations on 8
classic NLP tasks over \emph{18} popularly used models. Our findings confirm
that the OOD accuracy in NLP tasks needs to be paid more attention to since the
significant performance decay compared to ID accuracy has been found in all
settings.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、事前トレーニングフェーズにおけるトレーニングコーパスとして大量のデータを活用することにより、モデル一般化を改善する。
しかし、現在、自然言語理解タスクにおける大規模PLMにおいても、OOD(out-of-distriion)の一般化は一般的に不適切な問題となっているため、NLPメソッドの現実世界への展開を妨げている。
そこで本研究では,OODのロバスト性の重要性を強調し,モデルのロバスト性の測定方法と改善方法についての知見を提供するとともに,GLUE-Xという統一ベンチマークの確立に向けた最初の試みを行う。
この目的のために、OODテストデータとして利用可能な13のデータセットを収集し、よく使われているモデルに対して8つの古典的NLPタスクの評価を行う。
以上の結果から,NLPタスクにおけるOODの精度は,すべての設定でIDの精度と比較して大きな性能低下が見られたため,注意が必要であることが確認された。
関連論文リスト
- A Survey on Evaluation of Out-of-Distribution Generalization [41.39827887375374]
アウト・オブ・ディストリビューション(OOD)の一般化は複雑で基本的な問題である。
本報告は,OOD評価の総合的な評価を行うための最初の試みである。
我々は,OOD性能試験,OOD性能予測,OOD固有の特性評価という3つのパラダイムに分類した。
論文 参考訳(メタデータ) (2024-03-04T09:30:35Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving
Out-of-Domain Robustness [66.37077266814822]
自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。
本稿では,合成学習例を生成するためのデータ拡張手法であるSSMBAを紹介する。
3つのタスクと9つのデータセットにわたるベンチマークの実験では、SSMBAは既存のデータ拡張メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2020-09-21T22:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。