論文の概要: Ensemble ALBERT on SQuAD 2.0
- arxiv url: http://arxiv.org/abs/2110.09665v1
- Date: Tue, 19 Oct 2021 00:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:18:06.773005
- Title: Ensemble ALBERT on SQuAD 2.0
- Title(参考訳): ALBERTをSQuAD 2.0に組み込む
- Authors: Shilun Li, Renee Li, Veronica Peng
- Abstract要約: 本稿では,ALBERTモデルを微調整し,モデル性能を向上させるために追加レイヤの組み合わせを実装した。
私たちの最高のパフォーマンスの個人モデルはALBERT-xxlarge + ALBERT-SQuAD-outで、開発セットでF1スコア88.435を達成しました。
いくつかの最高の性能のモデルの結果を重み付けされた投票アンサンブルアルゴリズムに渡すことで、最終結果は、F1 = 90.123のStanford CS224N Test PCE SQuAD Leaderboardにランクインする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine question answering is an essential yet challenging task in natural
language processing. Recently, Pre-trained Contextual Embeddings (PCE) models
like Bidirectional Encoder Representations from Transformers (BERT) and A Lite
BERT (ALBERT) have attracted lots of attention due to their great performance
in a wide range of NLP tasks. In our Paper, we utilized the fine-tuned ALBERT
models and implemented combinations of additional layers (e.g. attention layer,
RNN layer) on top of them to improve model performance on Stanford Question
Answering Dataset (SQuAD 2.0). We implemented four different models with
different layers on top of ALBERT-base model, and two other models based on
ALBERT-xlarge and ALBERT-xxlarge. We compared their performance to our baseline
model ALBERT-base-v2 + ALBERT-SQuAD-out with details. Our best-performing
individual model is ALBERT-xxlarge + ALBERT-SQuAD-out, which achieved an F1
score of 88.435 on the dev set. Furthermore, we have implemented three
different ensemble algorithms to boost overall performance. By passing in
several best-performing models' results into our weighted voting ensemble
algorithm, our final result ranks first on the Stanford CS224N Test PCE SQuAD
Leaderboard with F1 = 90.123.
- Abstract(参考訳): 機械質問応答は自然言語処理において不可欠だが難しい課題である。
近年、トランスフォーマー (bert) や lite bert (albert) からの双方向エンコーダ表現のような事前学習された文脈埋め込み (pce) モデルが、幅広い nlp タスクでの性能の高さから多くの注目を集めている。
本稿では,ALBERTモデルを微調整し,その上に追加レイヤ(注意層,RNN層など)を組み合わせて,SQuAD 2.0(Stanford Question Answering Dataset)のモデル性能を改善した。
ALBERTベースモデルとALBERT-xlargeとALBERT-xxlargeに基づく2つのモデルを用いて,異なる層を持つ4つのモデルを実装した。
ベースラインモデル ALBERT-base-v2 + ALBERT-SQuAD-out と比較した。
我々の最も優れた個別モデルはALBERT-xxlarge + ALBERT-SQuAD-outであり、開発セットでF1スコア88.435に達した。
さらに,性能向上のために3種類のアンサンブルアルゴリズムを実装した。
いくつかの最高の性能のモデルの結果を重み付けされた投票アンサンブルアルゴリズムに渡すことで、最終結果はStanford CS224N Test PCE SQuAD Leaderboard with F1 = 90.123にランク付けされる。
関連論文リスト
- oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - FlexiBERT: Are Current Transformer Architectures too Homogeneous and
Rigid? [7.813154720635396]
本稿では,多種多様な演算可能なエンコーダ層を有する多種多様なモデルであるFlexiBERTを提案する。
また、この新たなスキーム、ベイズモデル、二階最適化を活用した新しいNASポリシーであるBOSHNASを提案する。
包括的な実験の結果、FlexiBERTの設計領域に適用された提案されたポリシーは、従来のモデルと比較してパフォーマンスのフロンティアを上方に押し上げる。
論文 参考訳(メタデータ) (2022-05-23T22:44:34Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - Gestalt: a Stacking Ensemble for SQuAD2.0 [0.0]
本稿では,文脈文中の質問に対する正しい回答を見つけ出し,提示する深層学習システムを提案する。
我々のゴールは、各アンサンブルで最高のモデルを上回る異種SQuAD2.0モデルのアンサンブルを学習することである。
論文 参考訳(メタデータ) (2020-04-02T08:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。