論文の概要: CLUES: Few-Shot Learning Evaluation in Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2111.02570v1
- Date: Thu, 4 Nov 2021 00:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 12:39:21.016929
- Title: CLUES: Few-Shot Learning Evaluation in Natural Language Understanding
- Title(参考訳): CLUES: 自然言語理解におけるわずかなショット学習評価
- Authors: Subhabrata Mukherjee, Xiaodong Liu, Guoqing Zheng, Saghar Hosseini,
Hao Cheng, Greg Yang, Christopher Meek, Ahmed Hassan Awadallah, Jianfeng Gao
- Abstract要約: 我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。
近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
- 参考スコア(独自算出の注目度): 81.63968985419982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent progress in natural language understanding (NLU) has been driven,
in part, by benchmarks such as GLUE, SuperGLUE, SQuAD, etc. In fact, many NLU
models have now matched or exceeded "human-level" performance on many tasks in
these benchmarks. Most of these benchmarks, however, give models access to
relatively large amounts of labeled data for training. As such, the models are
provided far more data than required by humans to achieve strong performance.
That has motivated a line of work that focuses on improving few-shot learning
performance of NLU models. However, there is a lack of standardized evaluation
benchmarks for few-shot NLU resulting in different experimental settings in
different papers. To help accelerate this line of work, we introduce CLUES
(Constrained Language Understanding Evaluation Standard), a benchmark for
evaluating the few-shot learning capabilities of NLU models. We demonstrate
that while recent models reach human performance when they have access to large
amounts of labeled data, there is a huge gap in performance in the few-shot
setting for most tasks. We also demonstrate differences between alternative
model families and adaptation techniques in the few shot setting. Finally, we
discuss several principles and choices in designing the experimental settings
for evaluating the true few-shot learning performance and suggest a unified
standardized approach to few-shot learning evaluation. We aim to encourage
research on NLU models that can generalize to new tasks with a small number of
examples. Code and data for CLUES are available at
https://github.com/microsoft/CLUES.
- Abstract(参考訳): 自然言語理解(NLU)の最近の進歩は、一部はGLUE、SuperGLUE、SQuADなどのベンチマークによって推進されている。
実際、多くのNLUモデルはこれらのベンチマークで多くのタスクにおいて「人間レベル」のパフォーマンスと一致または超えた。
しかし、これらのベンチマークのほとんどは、モデルがトレーニングのために比較的大量のラベル付きデータにアクセスできるようにする。
このように、モデルは強い性能を達成するために人間が要求するよりもはるかに多くのデータを提供する。
これはnluモデルのマイナショット学習のパフォーマンス向上に焦点を当てた一連の作業の動機となっている。
しかし、nluの標準化された評価ベンチマークが欠如しており、異なる論文で実験的な設定が異なる。
この一連の作業を加速するために、nluモデルの数少ない学習能力を評価するためのベンチマークであるcucumbers(constrained language understanding evaluation standard)を紹介します。
近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
また,いくつかのショット設定において,代替モデルファミリと適応手法の違いを示す。
最後に,真の数発学習性能を評価するための実験的な設定を設計する際の原則と選択について論じ,数発学習評価に対する統一的なアプローチを提案する。
少数の例で新しいタスクに一般化できるNLUモデルの研究を奨励することを目的としている。
CLUESのコードとデータはhttps://github.com/microsoft/CLUESで公開されている。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Meta learning to classify intent and slot labels with noisy few shot
examples [11.835266162072486]
音声言語理解(SLU)モデルは、データハングリーで悪名高い。
SLUは目的分類(IC)とスロットラベリング(SL)の2つのコア問題から構成される。
本稿では,従来の微調整ベースラインとメタラーニング手法であるモデル非依存メタラーニング(MAML)を,ICの精度とSL F1の精度で一貫した性能で向上することを示す。
論文 参考訳(メタデータ) (2020-11-30T18:53:30Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。