論文の概要: Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations
- arxiv url: http://arxiv.org/abs/2306.04618v2
- Date: Thu, 26 Oct 2023 06:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:26:22.483598
- Title: Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations
- Title(参考訳): nlpにおける分散外ロバスト性の再検討:ベンチマーク、分析、llms評価
- Authors: Lifan Yuan, Yangyi Chen, Ganqu Cui, Hongcheng Gao, Fangyuan Zou,
Xingyi Cheng, Heng Ji, Zhiyuan Liu, Maosong Sun
- Abstract要約: 本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
- 参考スコア(独自算出の注目度): 111.88727295707454
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper reexamines the research on out-of-distribution (OOD) robustness in
the field of NLP. We find that the distribution shift settings in previous
studies commonly lack adequate challenges, hindering the accurate evaluation of
OOD robustness. To address these issues, we propose a benchmark construction
protocol that ensures clear differentiation and challenging distribution
shifts. Then we introduce BOSS, a Benchmark suite for Out-of-distribution
robustneSS evaluation covering 5 tasks and 20 datasets. Based on BOSS, we
conduct a series of experiments on pre-trained language models for analysis and
evaluation of OOD robustness. First, for vanilla fine-tuning, we examine the
relationship between in-distribution (ID) and OOD performance. We identify
three typical types that unveil the inner learning mechanism, which could
potentially facilitate the forecasting of OOD robustness, correlating with the
advancements on ID datasets. Then, we evaluate 5 classic methods on BOSS and
find that, despite exhibiting some effectiveness in specific cases, they do not
offer significant improvement compared to vanilla fine-tuning. Further, we
evaluate 5 LLMs with various adaptation paradigms and find that when sufficient
ID data is available, fine-tuning domain-specific models outperform LLMs on ID
examples significantly. However, in the case of OOD instances, prioritizing
LLMs with in-context learning yields better results. We identify that both
fine-tuned small models and LLMs face challenges in effectively addressing
downstream tasks. The code is public at
\url{https://github.com/lifan-yuan/OOD_NLP}.
- Abstract(参考訳): 本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)の堅牢性に関する研究を再検討する。
従来の研究では,OODのロバスト性評価の精度を損なうような,適切な課題がほとんどなかった。
これらの問題に対処するため,我々は,明確な分化と分散の困難さを保証するためのベンチマーク構築プロトコルを提案する。
次に,5つのタスクと20のデータセットをカバーする分散ロバスト性評価のためのベンチマークスイートであるbossを紹介する。
BOSSに基づいて、OODロバスト性の分析と評価のための事前学習言語モデルに関する一連の実験を行う。
まず,バニラ微調整において,分布内(ID)とOOD性能の関係を検討する。
我々は,内的学習メカニズムを明らかにする3つの典型的なタイプを同定し,OODの堅牢性の予測を助長する可能性があり,IDデータセットの進歩に関連している。
次に,BOSSの古典的手法を5つ評価し,特定の症例で有効性を示したが,バニラ微調整に比べて有意な改善は得られなかった。
さらに, 5つのLLMを様々な適応パラダイムで評価し, 十分なIDデータが得られる場合, 細調整ドメイン固有モデルは, 実例でLLMを著しく上回ることがわかった。
しかし、OODの場合、文脈内学習によるLLMの優先順位付けはより良い結果をもたらす。
細調整された小型モデルとLLMの両方が、下流タスクを効果的に処理する上での課題に直面している。
コードは \url{https://github.com/lifan-yuan/OOD_NLP} で公開されている。
関連論文リスト
- UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Your Finetuned Large Language Model is Already a Powerful Out-of-distribution Detector [17.305076703258813]
我々は,事前学習された大言語モデル(LLM)と,その微調整された変種との比率を,アウト・オブ・ディストリビューション(OOD)検出の基準として再検討する。
本研究は,OOD検出に有効である可能性比を初めて示す。
論文 参考訳(メタデータ) (2024-04-07T10:32:49Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文 参考訳(メタデータ) (2023-08-20T13:15:18Z) - Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual
Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。
次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2023-06-05T06:50:42Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Energy-bounded Learning for Robust Models of Code [16.592638312365164]
プログラミングでは、コード表現の学習には、コード分類、コード検索、コメント生成、バグ予測など、さまざまなアプリケーションがある。
本稿では,ソースコードモデルのトレーニングプロセスにこれらのアウト・オブ・ディストリビューション・サンプルを組み込むため,エネルギー境界学習目標関数を用いて,イン・ディストリビューション・サンプルにより高いスコアを割り当て,アウト・オブ・ディストリビューション・サンプルに低いスコアを割り当てることを提案する。
論文 参考訳(メタデータ) (2021-12-20T06:28:56Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。