論文の概要: Formulating Few-shot Fine-tuning Towards Language Model Pre-training: A
Pilot Study on Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2205.11799v1
- Date: Tue, 24 May 2022 05:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 07:15:28.493837
- Title: Formulating Few-shot Fine-tuning Towards Language Model Pre-training: A
Pilot Study on Named Entity Recognition
- Title(参考訳): 言語モデルの事前学習に向けたマイナショット微調整の定式化:名前付きエンティティ認識に関するパイロット研究
- Authors: Zihan Wang, Kewen Zhao, Zilong Wang, Jingbo Shang
- Abstract要約: NER, FFF-NER のための新しいファインチューニングフレームワークを提案する。
具体的には,3種類のトークン,"is-entity","which-type","bracket"を導入し,NERの微調整を(仮に)トークンの予測や生成として定式化することができる。
我々は、シーケンスラベリング、プロトタイプメタラーニング、プロンプトベースアプローチなど、既存の微調整戦略に対する大幅な改善を観察する。
- 参考スコア(独自算出の注目度): 32.92597650149752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pre-trained language models has recently become a common practice
in building NLP models for various tasks, especially few-shot tasks. We argue
that under the few-shot setting, formulating fine-tuning closer to the
pre-training objectives shall be able to unleash more benefits from the
pre-trained language models. In this work, we take few-shot named entity
recognition (NER) for a pilot study, where existing fine-tuning strategies are
much different from pre-training. We propose a novel few-shot fine-tuning
framework for NER, FFF-NER. Specifically, we introduce three new types of
tokens, "is-entity", "which-type" and bracket, so we can formulate the NER
fine-tuning as (masked) token prediction or generation, depending on the choice
of pre-trained language models. In our experiments, we apply FFF-NER to
fine-tune both BERT and BART for few-shot NER on several benchmark datasets and
observe significant improvements over existing fine-tuning strategies,
including sequence labeling, prototype meta-learning, and prompt-based
approaches. We further perform a series of ablation studies, showing few-shot
NER performance is strongly correlated with the similarity between fine-tuning
and pre-training.
- Abstract(参考訳): 微調整済みの言語モデルは最近、様々なタスク、特に少数ショットタスクのためのNLPモデルを構築するための一般的なプラクティスとなっている。
数ショットの環境では、事前訓練対象に近い微調整を定式化することで、事前訓練された言語モデルからより多くのメリットを解放できる、と我々は主張する。
本研究では、既存の微調整戦略が事前学習とは大きく異なるパイロットスタディのために、数発のエンティティ認識(NER)を用いる。
NER, FFF-NER のための新しいファインチューニングフレームワークを提案する。
具体的には「is-entity」と「which-type」と「bracket」という3種類の新しいトークンを導入し、事前訓練された言語モデルの選択に応じて、NERの微調整を(仮に)トークンの予測や生成として定式化することができる。
実験では、いくつかのベンチマークデータセット上で、BERTとBARTの両方の微調整にFFF-NERを適用し、シーケンスラベリング、プロトタイプメタラーニング、プロンプトベースのアプローチを含む既存の微調整戦略を大幅に改善した。
さらに,数発のNER性能が微調整と事前学習の類似性と強く相関していることを示す一連のアブレーション研究を行った。
関連論文リスト
- An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Enhancing Few-shot NER with Prompt Ordering based Data Augmentation [59.69108119752584]
本稿では,PODA(Prompt Ordering Based Data Augmentation)手法を提案する。
3つのパブリックNERデータセットの実験結果とさらなる分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-19T16:25:43Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。