論文の概要: GLUE-X: Evaluating Natural Language Understanding Models from an
Out-of-distribution Generalization Perspective
- arxiv url: http://arxiv.org/abs/2211.08073v4
- Date: Mon, 22 May 2023 11:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:07:15.479622
- Title: GLUE-X: Evaluating Natural Language Understanding Models from an
Out-of-distribution Generalization Perspective
- Title(参考訳): GLUE-X:分布外一般化の観点からの自然言語理解モデルの評価
- Authors: Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang, Hanmeng
Liu, Jindong Wang, Xing Xie, Yue Zhang
- Abstract要約: 本稿では,NLPモデルにおけるOODロバスト性を評価するため,GLUE-Xという統一ベンチマークを作成するための最初の試みを示す。
GPT-3 や GPT-3.5 を含む 21 以上の PLM の古典的 NLP タスクに対して評価を行った。
- 参考スコア(独自算出の注目度): 36.24251509242988
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-trained language models (PLMs) are known to improve the generalization
performance of natural language understanding models by leveraging large
amounts of data during the pre-training phase. However, the out-of-distribution
(OOD) generalization problem remains a challenge in many NLP tasks, limiting
the real-world deployment of these methods. This paper presents the first
attempt at creating a unified benchmark named GLUE-X for evaluating OOD
robustness in NLP models, highlighting the importance of OOD robustness and
providing insights on how to measure the robustness of a model and how to
improve it. The benchmark includes 13 publicly available datasets for OOD
testing, and evaluations are conducted on 8 classic NLP tasks over 21 popularly
used PLMs, including GPT-3 and GPT-3.5. Our findings confirm the need for
improved OOD accuracy in NLP tasks, as significant performance degradation was
observed in all settings compared to in-distribution (ID) accuracy.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は,事前学習期間中に大量のデータを活用することにより,自然言語理解モデルの一般化性能を向上させることが知られている。
しかし、多くのNLPタスクにおいて、OOD(out-of-distriion)の一般化問題は依然として課題であり、これらのメソッドの実際の展開を制限している。
本稿では,NLPモデルにおけるOODのロバスト性を評価し,OODのロバスト性の重要性を強調し,モデルのロバスト性の測定方法とそれを改善する方法についての知見を提供する。
ベンチマークには、OODテスト用の13の公開データセットが含まれており、GPT-3やGPT-3.5を含む21以上の広く使用されているPLMの8つの古典的NLPタスクで評価が行われている。
その結果,NLPタスクにおけるOOD精度の改善の必要性が確認された。
関連論文リスト
- A Survey on Evaluation of Out-of-Distribution Generalization [41.39827887375374]
アウト・オブ・ディストリビューション(OOD)の一般化は複雑で基本的な問題である。
本報告は,OOD評価の総合的な評価を行うための最初の試みである。
我々は,OOD性能試験,OOD性能予測,OOD固有の特性評価という3つのパラダイムに分類した。
論文 参考訳(メタデータ) (2024-03-04T09:30:35Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving
Out-of-Domain Robustness [66.37077266814822]
自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。
本稿では,合成学習例を生成するためのデータ拡張手法であるSSMBAを紹介する。
3つのタスクと9つのデータセットにわたるベンチマークの実験では、SSMBAは既存のデータ拡張メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2020-09-21T22:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。