論文の概要: Measuring the Robustness of NLP Models to Domain Shifts
- arxiv url: http://arxiv.org/abs/2306.00168v4
- Date: Sun, 28 Jan 2024 13:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:29:16.424777
- Title: Measuring the Robustness of NLP Models to Domain Shifts
- Title(参考訳): NLPモデルのドメインシフトに対するロバスト性の測定
- Authors: Nitay Calderon, Naveh Porat, Eyal Ben-David, Alexander Chapanin, Zorik
Gekhman, Nadav Oved, Vitaly Shalumov, Roi Reichart
- Abstract要約: ドメイン・ロバストネス(DR)に関する既存の研究は、異なる設定、タスクの多様性の欠如、ショット・ラーニングのような最近の能力に関する研究が不足している。
分類,QA,生成を含む7つのNLPタスクからなるベンチマークを開発した。
18の細調整モデルと数ショットモデルにまたがる14,000以上のドメインシフトを含む包括的な研究は、両方のモデルタイプがドメインシフトに伴うドロップに悩まされていることを示している。
- 参考スコア(独自算出の注目度): 52.81285668708451
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Existing research on Domain Robustness (DR) suffers from disparate setups,
lack of task variety, and scarce research on recent capabilities such as
few-shot learning. Furthermore, we claim that the common practice of measuring
DR might further obscure the picture. Current research focuses on challenge
sets and relies solely on the Source Drop (SD): Using the source in-domain
performance as a reference point for degradation. However, the Target Drop
(TD), which measures degradation from the target in-domain performance, should
be used as a complementary point of view. In this study, we developed a
benchmark comprised of seven NLP tasks, including classification, QA, and
generation. Our benchmark focuses on natural topical domain shifts and enables
measuring both the SD and the TD. Our comprehensive study, involving over
14,000 domain shifts across 18 fine-tuned and few-shot models, shows that both
model types suffer from drops upon domain shifts. While fine-tuned models excel
in-domain, few-shot LLMs often surpass them cross-domain, showing better
robustness. In addition, we found that a large SD can be explained by shifting
to a harder domain rather than by a genuine DR challenge. Thus, the TD is a
more reliable metric for assessing DR.
- Abstract(参考訳): 既存のドメインロバストネス(dr)の研究は、異なるセットアップ、タスクの多様性の欠如、そして、少数ショット学習のような最近の能力に関する研究不足に苦しめられている。
さらに,d.d.測定の一般的な実践は,この像をさらに曖昧にする可能性がある。
現在の研究はチャレンジセットに焦点を当てており、ソースドロップ(sd:source in-domain performance)のみに依存しています。
しかしながら、ドメイン内のパフォーマンスの劣化を測定するターゲットドロップ(TD)は、補完的な視点として使用すべきである。
本研究では,分類,QA,生成を含む7つのNLPタスクからなるベンチマークを開発した。
本ベンチマークでは,自然領域シフトに着目し,SDとTDの両方を計測する。
18の細調整モデルと数ショットモデルにまたがる14,000以上のドメインシフトを含む包括的な研究は、両方のモデルタイプがドメインシフト時に低下することを示している。
微調整のモデルはドメイン内では優れているが、少数ショットのLLMはドメインを超越し、堅牢性が向上する。
さらに、真のDRチャレンジではなく、難しいドメインにシフトすることで、大きなSDを説明できることがわかりました。
したがって、TDはDRを評価するための信頼性の高い計量である。
関連論文リスト
- Divergent Domains, Convergent Grading: Enhancing Generalization in Diabetic Retinopathy Grading [8.59772105902647]
糖尿病網膜症(DR)は世界の視覚障害の5%を占める。
DRグレーディングにおけるドメイン一般化(DG)を実現するための新しいディープラーニング手法を提案する。
本手法は,経験的リスク最小化ベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-11-04T21:09:24Z) - Weakly supervised deep learning model with size constraint for prostate cancer detection in multiparametric MRI and generalization to unseen domains [0.90668179713299]
本モデルでは, 完全教師付きベースラインモデルにより, オンパー性能が向上することを示す。
また、未確認データドメインでテストした場合、完全に教師付きモデルと弱い教師付きモデルの両方のパフォーマンス低下も観察する。
論文 参考訳(メタデータ) (2024-11-04T12:24:33Z) - DRStageNet: Deep Learning for Diabetic Retinopathy Staging from Fundus
Images [3.4456298317539313]
タイムリーな識別は視覚障害を抑制するために重要である。
モデルは、モデルがトレーニングされたソースドメインと、それがデプロイされたターゲットドメインの間の分散シフトのために、一般化に失敗することが多い。
この課題を軽減するために設計されたディープラーニングモデルであるDRStageNetを紹介します。
論文 参考訳(メタデータ) (2023-12-22T18:09:20Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。