論文の概要: FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2107.07498v1
- Date: Thu, 15 Jul 2021 17:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 15:33:56.226897
- Title: FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark
- Title(参考訳): FewCLUE: 中国のFew-shot Learning Evaluationベンチマーク
- Authors: Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Hu Yuan, Huilin
Xu, Guoao Wei, Xiang Pan, Hai Hu
- Abstract要約: この研究は、中国初の総合的な小サンプル評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介した。
1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。
次に、最先端の複数ショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
- 参考スコア(独自算出の注目度): 8.158067688043554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Language Models (PLMs) have achieved tremendous success in natural
language understanding tasks. While different learning schemes -- fine-tuning,
zero-shot and few-shot learning -- have been widely explored and compared for
languages such as English, there is comparatively little work in Chinese to
fairly and comprehensively evaluate and compare these methods. This work first
introduces Chinese Few-shot Learning Evaluation Benchmark (FewCLUE), the first
comprehensive small sample evaluation benchmark in Chinese. It includes nine
tasks, ranging from single-sentence and sentence-pair classification tasks to
machine reading comprehension tasks. Given the high variance of the few-shot
learning performance, we provide multiple training/validation sets to
facilitate a more accurate and stable evaluation of few-shot modeling. An
unlabeled training set with up to 20,000 additional samples per task is
provided, allowing researchers to explore better ways of using unlabeled
samples. Next, we implement a set of state-of-the-art (SOTA) few-shot learning
methods (including PET, ADAPET, LM-BFF, P-tuning and EFL), and compare their
performance with fine-tuning and zero-shot learning schemes on the newly
constructed FewCLUE benchmark.Our results show that: 1) all five few-shot
learning methods exhibit better performance than fine-tuning or zero-shot
learning; 2) among the five methods, PET is the best performing few-shot
method; 3) few-shot learning performance is highly dependent on the specific
task. Our benchmark and code are available at
https://github.com/CLUEbenchmark/FewCLUE
- Abstract(参考訳): 事前学習型言語モデル(PLM)は自然言語理解タスクにおいて大きな成功を収めた。
微調整、ゼロショット、少数ショット学習といった異なる学習方式は、英語などの言語で広く研究され比較されてきたが、中国語の手法を公平かつ包括的に評価し比較する作業は、比較的少ない。
この研究は、中国初の総合的な小サンプル評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介した。
これには、単文と文ペア分類タスクから機械読解タスクまで、9つのタスクが含まれる。
マイナショット学習性能のばらつきが大きいため,マイナショットモデリングをより正確かつ安定した評価のために,複数のトレーニング/評価セットを提供する。
1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。
Next, we implement a set of state-of-the-art (SOTA) few-shot learning methods (including PET, ADAPET, LM-BFF, P-tuning and EFL), and compare their performance with fine-tuning and zero-shot learning schemes on the newly constructed FewCLUE benchmark.Our results show that: 1) all five few-shot learning methods exhibit better performance than fine-tuning or zero-shot learning; 2) among the five methods, PET is the best performing few-shot method; 3) few-shot learning performance is highly dependent on the specific task.
ベンチマークとコードはhttps://github.com/CLUEbenchmark/FewCLUEで公開されている。
関連論文リスト
- Few-shot learning for sentence pair classification and its applications
in software engineering [0.36832029288386137]
本研究は、BERTベースのモデルを用いた代替的な数ショット学習手法の性能について検討する。
バニラファインチューニング、PET、SetFitは、トレーニングセットサイズの配列に対して、BERTベースの多数のチェックポイントと比較される。
結果から,PETは強力な数発学習手法として確立し,数百のラベル付きサンプルを用いて,フルサイズのデータセットの微調整に近い性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T18:23:52Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Multilingual Relation Classification via Efficient and Effective
Prompting [9.119073318043952]
本稿では,プロンプトベース多言語関係分類(RC)に関する最初の研究について述べる。
本稿では,関係3重項からプロンプトを合成し,クラスラベルの最小翻訳のみを伴う効率的かつ効率的な手法を提案する。
完全教師付き、少数ショット、ゼロショットのシナリオでその性能を評価し、14言語でその有効性を分析した。
論文 参考訳(メタデータ) (2022-10-25T08:40:23Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z) - CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。
CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。
我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文 参考訳(メタデータ) (2020-04-13T15:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。