論文の概要: Measuring the Robustness of Natural Language Processing Models to Domain
Shifts
- arxiv url: http://arxiv.org/abs/2306.00168v2
- Date: Sat, 1 Jul 2023 18:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 13:05:13.443417
- Title: Measuring the Robustness of Natural Language Processing Models to Domain
Shifts
- Title(参考訳): 自然言語処理モデルのドメインシフトに対するロバスト性の測定
- Authors: Nitay Calderon, Naveh Porat, Eyal Ben-David, Zorik Gekhman, Nadav
Oved, Roi Reichart
- Abstract要約: ドメインロバストネス(DR)に関する既存の研究は、異なる設定、評価タスクの多様性の欠如、課題セットへの依存に悩まされている。
我々は,文章やトークンレベルの分類,QA,生成など,多様なNLPタスクからなるDRベンチマークを構築した。
- 参考スコア(独自算出の注目度): 16.529021005632256
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Existing research on Domain Robustness (DR) suffers from disparate setups,
lack of evaluation task variety, and reliance on challenge sets. In this paper,
we pose a fundamental question: What is the state of affairs of the DR
challenge in the era of Large Language Models (LLMs)? To this end, we construct
a DR benchmark comprising diverse NLP tasks, including sentence and token-level
classification, QA, and generation, each task consists of several domains. We
explore the DR challenge of fine-tuned and few-shot learning models in natural
domain shift settings and devise two diagnostic metrics of Out-of-Distribution
(OOD) performance degradation: The commonly used Source Drop (SD) and the
overlooked Target Drop (TD). Our findings reveal important insights: First,
despite their capabilities, zero-to-few shot LLMs and fine-tuning approaches
still fail to meet satisfactory performance in the OOD context; Second, TD
approximates better than SD the average OOD degradation; Third, in a
significant proportion of domain shifts, either SD or TD is positive, but not
both, and therefore disregarding one can lead to incorrect DR conclusions.
- Abstract(参考訳): 既存のドメインロバストネス(dr)の研究は、異なるセットアップ、評価タスクの多様性の欠如、チャレンジセットへの依存に苦しめられている。
本稿では,大言語モデル(llm)時代における dr 課題の現状について,基本的な問いを提起する。
この目的のために,文章およびトークンレベルの分類,QA,生成を含む多様なNLPタスクからなるDRベンチマークを構築し,各タスクは複数のドメインから構成される。
我々は、自然ドメインシフト設定における微調整および少ショット学習モデルのDR課題を探求し、アウト・オブ・ディストリビューション(OOD)パフォーマンス劣化の2つの診断指標を考案する: 一般的に使用されるソース・ドロップ(SD)と、見落とされたターゲット・ドロップ(TD)。
第2に, SD よりも平均 OOD の劣化率をよく近似し, 第3に, SD と TD のどちらが正の値であっても, どちらも正の値であり, 不正確な DR の結論を導出する可能性がある。
関連論文リスト
- Divergent Domains, Convergent Grading: Enhancing Generalization in Diabetic Retinopathy Grading [8.59772105902647]
糖尿病網膜症(DR)は世界の視覚障害の5%を占める。
DRグレーディングにおけるドメイン一般化(DG)を実現するための新しいディープラーニング手法を提案する。
本手法は,経験的リスク最小化ベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-11-04T21:09:24Z) - Weakly supervised deep learning model with size constraint for prostate cancer detection in multiparametric MRI and generalization to unseen domains [0.90668179713299]
本モデルでは, 完全教師付きベースラインモデルにより, オンパー性能が向上することを示す。
また、未確認データドメインでテストした場合、完全に教師付きモデルと弱い教師付きモデルの両方のパフォーマンス低下も観察する。
論文 参考訳(メタデータ) (2024-11-04T12:24:33Z) - DRStageNet: Deep Learning for Diabetic Retinopathy Staging from Fundus
Images [3.4456298317539313]
タイムリーな識別は視覚障害を抑制するために重要である。
モデルは、モデルがトレーニングされたソースドメインと、それがデプロイされたターゲットドメインの間の分散シフトのために、一般化に失敗することが多い。
この課題を軽減するために設計されたディープラーニングモデルであるDRStageNetを紹介します。
論文 参考訳(メタデータ) (2023-12-22T18:09:20Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。