論文の概要: FLEX: Unifying Evaluation for Few-Shot NLP
- arxiv url: http://arxiv.org/abs/2107.07170v1
- Date: Thu, 15 Jul 2021 07:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:12:23.948287
- Title: FLEX: Unifying Evaluation for Few-Shot NLP
- Title(参考訳): FLEX:Few-Shot NLPの統一評価
- Authors: Jonathan Bragg, Arman Cohan, Kyle Lo, Iz Beltagy
- Abstract要約: 我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。
最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。
また、数ショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
- 参考スコア(独自算出の注目度): 17.425495611344786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot NLP research is highly active, yet conducted in disjoint research
threads with evaluation suites that lack challenging-yet-realistic testing
setups and fail to employ careful experimental design. Consequently, the
community does not know which techniques perform best or even if they
outperform simple baselines. We formulate desiderata for an ideal few-shot NLP
benchmark and present FLEX, the first benchmark, public leaderboard, and
framework that provides unified, comprehensive measurement for few-shot NLP
techniques. FLEX incorporates and introduces new best practices for few-shot
evaluation, including measurement of four transfer settings, textual labels for
zero-shot evaluation, and a principled approach to benchmark design that
optimizes statistical accuracy while keeping evaluation costs accessible to
researchers without large compute resources. In addition, we present UniFew, a
simple yet strong prompt-based model for few-shot learning which unifies the
pretraining and finetuning prompt formats, eschewing complex machinery of
recent prompt-based approaches in adapting downstream task formats to language
model pretraining objectives. We demonstrate that despite simplicity UniFew
achieves results competitive with both popular meta-learning and prompt-based
approaches.
- Abstract(参考訳): NLPの研究は非常に活発だが、挑戦的かつ現実的なテストのセットアップが欠如し、慎重な実験設計を採用できないような評価スイートを備えた不整合の研究スレッドで実施されている。
その結果、コミュニティはどのテクニックが優れているか、あるいは単純なベースラインよりも優れているかを知らない。
我々は,デシダラタを理想的な数点NLPベンチマークとして定式化し,最初のベンチマークであるFLEX,公開リーダボード,および数点NLPテクニックを統一的かつ包括的に測定するフレームワークを提案する。
FLEXは、4つの転送設定の測定、ゼロショット評価のためのテキストラベルの測定、統計精度を最適化するベンチマーク設計への原則的なアプローチを含む、数ショット評価のための新しいベストプラクティスを取り入れ、導入している。
さらに,UniFewは,事前学習と微調整のプロンプトフォーマットを統一した,シンプルだが強力なプロンプトベースモデルであり,近年のプロンプトベースアプローチによる言語モデル事前学習目的への下流タスク形式の適用を図っている。
シンプルさにもかかわらず、UniFewは一般的なメタ学習とプロンプトベースのアプローチの両方と競合する結果が得られることを実証する。
関連論文リスト
- On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection [52.100335904875614]
そこで我々は,新しいクラス検出器とサブクラス化器を導入し,基本クラスと新クラスの識別性をさらに向上させる,新しいプロンプトチューニング手法であるDecomposed Context Optimization(DeCoOp)を提案する。
11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。
論文 参考訳(メタデータ) (2024-06-01T07:46:42Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery [76.63807209414789]
我々は,クラスiNCDにおける現状問題に挑戦し,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。
凍結したPTMバックボーンと学習可能な線形分類器から構成される単純なベースラインを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z) - SE3M: A Model for Software Effort Estimation Using Pre-trained Embedding
Models [0.8287206589886881]
本稿では,事前学習した埋め込みモデルの有効性を評価する。
両方のアプローチでトレーニング済みのジェネリックモデルは、微調整プロセスを経ている。
テスト結果は非常に有望で、事前トレーニングされたモデルを使用して、要求テキストのみに基づいてソフトウェアの労力を見積もることができることに気付きました。
論文 参考訳(メタデータ) (2020-06-30T14:15:38Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。