論文の概要: Measuring the Robustness of Natural Language Processing Models to Domain
Shifts
- arxiv url: http://arxiv.org/abs/2306.00168v1
- Date: Wed, 31 May 2023 20:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:40:49.092639
- Title: Measuring the Robustness of Natural Language Processing Models to Domain
Shifts
- Title(参考訳): 自然言語処理モデルのドメインシフトに対するロバスト性の測定
- Authors: Nitay Calderon, Naveh Porat, Eyal Ben-David, Zorik Gekhman, Nadav
Oved, Roi Reichart
- Abstract要約: 大規模言語モデルは、微調整、少数ショット学習、ゼロショット学習など、様々なタスクで有望なパフォーマンスを示している。
ドメインロバストネス(DR)に関する既存の研究は、異なる設定、評価タスクの多様性の欠如、課題セットへの依存に悩まされている。
自然なドメインシフト設定において、微調整および少ショット学習モデルのDRチャレンジについて検討する。
- 参考スコア(独自算出の注目度): 16.529021005632256
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models have shown promising performance on various tasks,
including fine-tuning, few-shot learning, and zero-shot learning. However,
their performance on domains without labeled data still lags behind those with
labeled data, which we refer as the Domain Robustness (DR) challenge. Existing
research on DR suffers from disparate setups, lack of evaluation task variety,
and reliance on challenge sets. In this paper, we explore the DR challenge of
both fine-tuned and few-shot learning models in natural domain shift settings.
We introduce a DR benchmark comprising diverse NLP tasks, including sentence
and token-level classification, QA, and generation, each task consists of
several domains. We propose two views of the DR challenge: Source Drop (SD) and
Target Drop (TD), which alternate between the source and target in-domain
performance as reference points. We find that in significant proportions of
domain shifts, either SD or TD is positive, but not both, emphasizing the
importance of considering both measures as diagnostic tools. Our experimental
results demonstrate the persistent existence of the DR challenge in both
fine-tuning and few-shot learning models, though it is less pronounced in the
latter. We also find that increasing the fine-tuned model size improves
performance, particularly in classification.
- Abstract(参考訳): 大規模言語モデルは、微調整、少数ショット学習、ゼロショット学習など、様々なタスクで有望なパフォーマンスを示している。
しかし、ラベル付きデータを持たないドメインでの彼らのパフォーマンスは、ラベル付きデータを持つ領域よりもまだ遅れており、これはドメインロバストネス(dr)チャレンジ(domain robustness)と呼ばれている。
drに関する既存の研究は、異なるセットアップ、評価タスクの多様性の欠如、チャレンジセットへの依存に苦しめられている。
本稿では,自然ドメインシフト設定における微調整学習モデルと少数ショット学習モデルのDR課題について検討する。
文章とトークンレベルの分類、QA、生成を含む多様なNLPタスクからなるDRベンチマークを導入し、各タスクは複数のドメインから構成される。
本稿では,ソース・ドロップ(SD)とターゲット・ドロップ(TD)の2つのDR課題について考察する。
SDもTDも陽性だが両方ではない領域シフトのかなりの割合で、両指標を診断ツールとして考えることの重要性を強調している。
実験の結果,微調整モデルと少数ショット学習モデルの両方において,DRチャレンジが持続的に存在することが示された。
また,微調整されたモデルサイズの増加は,特に分類において,性能の向上にも寄与することがわかった。
関連論文リスト
- Divergent Domains, Convergent Grading: Enhancing Generalization in Diabetic Retinopathy Grading [8.59772105902647]
糖尿病網膜症(DR)は世界の視覚障害の5%を占める。
DRグレーディングにおけるドメイン一般化(DG)を実現するための新しいディープラーニング手法を提案する。
本手法は,経験的リスク最小化ベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-11-04T21:09:24Z) - Weakly supervised deep learning model with size constraint for prostate cancer detection in multiparametric MRI and generalization to unseen domains [0.90668179713299]
本モデルでは, 完全教師付きベースラインモデルにより, オンパー性能が向上することを示す。
また、未確認データドメインでテストした場合、完全に教師付きモデルと弱い教師付きモデルの両方のパフォーマンス低下も観察する。
論文 参考訳(メタデータ) (2024-11-04T12:24:33Z) - DRStageNet: Deep Learning for Diabetic Retinopathy Staging from Fundus
Images [3.4456298317539313]
タイムリーな識別は視覚障害を抑制するために重要である。
モデルは、モデルがトレーニングされたソースドメインと、それがデプロイされたターゲットドメインの間の分散シフトのために、一般化に失敗することが多い。
この課題を軽減するために設計されたディープラーニングモデルであるDRStageNetを紹介します。
論文 参考訳(メタデータ) (2023-12-22T18:09:20Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。