論文の概要: FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural
Language Understanding
- arxiv url: http://arxiv.org/abs/2109.12742v1
- Date: Mon, 27 Sep 2021 00:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:54:59.498946
- Title: FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural
Language Understanding
- Title(参考訳): FewNLU:Few-Shot自然言語理解のための最先端手法のベンチマーク
- Authors: Yanan Zheng, Jing Zhou, Yujie Qian, Ming Ding, Jian Li, Ruslan
Salakhutdinov, Jie Tang, Sebastian Ruder, Zhilin Yang
- Abstract要約: 本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。
評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
- 参考スコア(独自算出の注目度): 89.92513889132825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The few-shot natural language understanding (NLU) task has attracted much
recent attention. However, prior methods have been evaluated under a disparate
set of protocols, which hinders fair comparison and measuring progress of the
field. To address this issue, we introduce an evaluation framework that
improves previous evaluation procedures in three key aspects, i.e., test
performance, dev-test correlation, and stability. Under this new evaluation
framework, we re-evaluate several state-of-the-art few-shot methods for NLU
tasks. Our framework reveals new insights: (1) both the absolute performance
and relative gap of the methods were not accurately estimated in prior
literature; (2) no single method dominates most tasks with consistent
performance; (3) improvements of some methods diminish with a larger pretrained
model; and (4) gains from different methods are often complementary and the
best combined model performs close to a strong fully-supervised baseline. We
open-source our toolkit, FewNLU, that implements our evaluation framework along
with a number of state-of-the-art methods.
- Abstract(参考訳): 数発の自然言語理解(NLU)タスクは近年注目を集めている。
しかし、以前の手法は異なるプロトコルのセットで評価されており、フィールドの公正な比較と測定を妨げている。
この問題に対処するために,従来の評価手順を,テストパフォーマンス,開発-テスト相関,安定性という3つの面から改善する評価フレームワークを提案する。
この新たな評価フレームワークでは,NLUタスクに対する最先端の複数ショット手法を再評価する。
従来の文献では,(1) 手法の絶対的性能と相対的ギャップが正確に評価されていないこと,(2) 単一手法が多くのタスクを一貫した性能で支配していないこと,(3) より大規模な事前学習モデルによってメソッドの改善が減少すること,(4) 異なる手法の利得が相補的であること,そして,最高の組み合わせモデルが強い完全教師付きベースラインに近く動作すること,など,新たな知見が得られた。
評価フレームワークを実装したツールキットであるFewNLUをオープンソースとして公開しています。
関連論文リスト
- On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Demystifying Unsupervised Semantic Correspondence Estimation [13.060538447838303]
教師なし学習のレンズによる意味対応推定について検討する。
我々は、最近提案された複数の課題データセットにまたがる教師なしの手法を徹底的に評価した。
本稿では,事前学習した特徴の強さを活かし,トレーニング中のより優れた試合を奨励する,新しい教師なし対応手法を提案する。
論文 参考訳(メタデータ) (2022-07-11T17:59:51Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。