論文の概要: Measuring the Robustness of NLP Models to Domain Shifts
- arxiv url: http://arxiv.org/abs/2306.00168v5
- Date: Sat, 20 Apr 2024 13:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:12:24.752385
- Title: Measuring the Robustness of NLP Models to Domain Shifts
- Title(参考訳): NLPモデルのドメインシフトに対するロバスト性の測定
- Authors: Nitay Calderon, Naveh Porat, Eyal Ben-David, Alexander Chapanin, Zorik Gekhman, Nadav Oved, Vitaly Shalumov, Roi Reichart,
- Abstract要約: ドメインロバストネス(DR)に関する既存の研究は、異なる設定、限られたタスクの多様性、コンテキスト内学習のような最近の能力に関する研究が不足している。
現在の研究は、チャレンジセットに焦点を当て、ソースドロップ(SD: Source Drop)のみに依存している。
我々は、ドメイン内パフォーマンスの劣化を測定するターゲットドロップ(TD)を相補的な視点として使うべきであると論じる。
- 参考スコア(独自算出の注目度): 50.89876374569385
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Existing research on Domain Robustness (DR) suffers from disparate setups, limited task variety, and scarce research on recent capabilities such as in-context learning. Furthermore, the common practice of measuring DR might not be fully accurate. Current research focuses on challenge sets and relies solely on the Source Drop (SD): Using the source in-domain performance as a reference point for degradation. However, we argue that the Target Drop (TD), which measures degradation from the target in-domain performance, should be used as a complementary point of view. To address these issues, we first curated a DR benchmark comprised of 7 diverse NLP tasks, which enabled us to measure both the SD and the TD. We then conducted a comprehensive large-scale DR study involving over 14,000 domain shifts across 21 fine-tuned models and few-shot LLMs. We found that both model types suffer from drops upon domain shifts. While fine-tuned models excel in-domain, few-shot LLMs often surpass them cross-domain, showing better robustness. In addition, we found that a large SD can often be explained by shifting to a harder domain rather than by a genuine DR challenge, and this highlights the importance of TD as a complementary metric. We hope our study will shed light on the current DR state of NLP models and promote improved evaluation practices toward more robust models.
- Abstract(参考訳): ドメインロバストネス(DR)に関する既存の研究は、異なる設定、限られたタスクの多様性、コンテキスト内学習のような最近の能力に関する研究が不足している。
さらに、DR測定の一般的な実践は、完全には正確ではないかもしれない。
現在の研究は、チャレンジセットに焦点を当て、ソースドロップ(SD: Source Drop)のみに依存している。
しかし、ドメイン内パフォーマンスの劣化を測定するターゲットドロップ(TD)は相補的な視点として使うべきであると論じる。
これらの問題に対処するため、まず7つの異なるNLPタスクからなるDRベンチマークを算出し、SDとTDの両方を計測した。
そこで我々は,21種類の微調整モデルと少ショットLLMを14,000以上のドメインシフトを含む大規模DR研究を行った。
両方のモデルタイプがドメインシフト時にドロップに悩まされることがわかりました。
微調整のモデルはドメイン内では優れているが、少数ショットのLLMはドメインを超越し、ロバスト性が向上する。
さらに、真のDRチャレンジよりも難しいドメインにシフトすることで、大きなSDをしばしば説明できることがわかり、これは相補的なメトリックとしてのTDの重要性を強調している。
我々の研究は、NLPモデルの現在のDR状態に光を当て、より堅牢なモデルに対する評価プラクティスの改善を促進することを願っている。
関連論文リスト
- Divergent Domains, Convergent Grading: Enhancing Generalization in Diabetic Retinopathy Grading [8.59772105902647]
糖尿病網膜症(DR)は世界の視覚障害の5%を占める。
DRグレーディングにおけるドメイン一般化(DG)を実現するための新しいディープラーニング手法を提案する。
本手法は,経験的リスク最小化ベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-11-04T21:09:24Z) - Weakly supervised deep learning model with size constraint for prostate cancer detection in multiparametric MRI and generalization to unseen domains [0.90668179713299]
本モデルでは, 完全教師付きベースラインモデルにより, オンパー性能が向上することを示す。
また、未確認データドメインでテストした場合、完全に教師付きモデルと弱い教師付きモデルの両方のパフォーマンス低下も観察する。
論文 参考訳(メタデータ) (2024-11-04T12:24:33Z) - DRStageNet: Deep Learning for Diabetic Retinopathy Staging from Fundus
Images [3.4456298317539313]
タイムリーな識別は視覚障害を抑制するために重要である。
モデルは、モデルがトレーニングされたソースドメインと、それがデプロイされたターゲットドメインの間の分散シフトのために、一般化に失敗することが多い。
この課題を軽減するために設計されたディープラーニングモデルであるDRStageNetを紹介します。
論文 参考訳(メタデータ) (2023-12-22T18:09:20Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。