論文の概要: Grid Search Hyperparameter Benchmarking of BERT, ALBERT, and LongFormer
on DuoRC
- arxiv url: http://arxiv.org/abs/2101.06326v1
- Date: Fri, 15 Jan 2021 23:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:27:11.484752
- Title: Grid Search Hyperparameter Benchmarking of BERT, ALBERT, and LongFormer
on DuoRC
- Title(参考訳): DuoRC上のBERT, ALBERT, LongFormerの格子探索ハイパーパラメータベンチマーク
- Authors: Alex John Quijano, Sam Nguyen, and Juanita Ordonez
- Abstract要約: このプロジェクトの目的は、DuoRCと呼ばれる質問応答データセット上でBERT、ALBERT、LongFormerという3つの言語モデルを評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of this project is to evaluate three language models named BERT,
ALBERT, and LongFormer on the Question Answering dataset called DuoRC. The
language model task has two inputs, a question, and a context. The context is a
paragraph or an entire document while the output is the answer based on the
context. The goal is to perform grid search hyperparameter fine-tuning using
DuoRC. Pretrained weights of the models are taken from the Huggingface library.
Different sets of hyperparameters are used to fine-tune the models using two
versions of DuoRC which are the SelfRC and the ParaphraseRC. The results show
that the ALBERT (pretrained using the SQuAD1 dataset) has an F1 score of 76.4
and an accuracy score of 68.52 after fine-tuning on the SelfRC dataset. The
Longformer model (pretrained using the SQuAD and SelfRC datasets) has an F1
score of 52.58 and an accuracy score of 46.60 after fine-tuning on the
ParaphraseRC dataset. The current results outperformed the results from the
previous model by DuoRC.
- Abstract(参考訳): このプロジェクトの目的は、DuoRCと呼ばれる質問応答データセット上でBERT、ALBERT、LongFormerという3つの言語モデルを評価することである。
言語モデルタスクには、質問とコンテキストという2つの入力がある。
文脈は段落または文書全体であり、出力は文脈に基づいた回答である。
目的は、DuoRCを使ってグリッド探索ハイパーパラメータの微調整を行うことである。
モデルの事前トレーニングされた重みは、hughingfaceライブラリから取得する。
モデルの微調整には、 selfrc と paraphraserc の2つのバージョンの duorc を用いて異なるハイパーパラメータが使用される。
その結果、ALBERT(SQuAD1データセットを使用した事前トレーニング)のF1スコアは76.4、精度スコアは68.52であることがわかった。
Longformerモデル(SQuADとSelfRCデータセットで事前訓練)はF1スコアが52.58、ParaphraseRCデータセットを微調整した後の精度スコアが46.60である。
現在の結果は、DuoRCによる以前のモデルよりも優れていた。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian [0.0]
我々は、SQuAD-srという名前の87K以上のサンプルからなるセルビア最大のQAデータセットを作成します。
セルビア語でスクリプトの双対性を認めるために、我々はデータセットのキリル文字版とラテン文字版の両方を生成した。
最高の結果は、私たちのラテンSQuAD-srデータセット上でBERTi'cモデルを微調整し、73.91%のExact Matchと82.97%のF1スコアを得たことである。
論文 参考訳(メタデータ) (2024-04-12T17:27:54Z) - The Death of Feature Engineering? BERT with Linguistic Features on SQuAD 2.0 [16.95168095046929]
BERTと追加の言語的特徴を取り入れたエンドツーエンドの質問応答モデルを開発した。
EMスコアとF1スコアはBERT(base)と比較して2.17と2.14が改善される
論文 参考訳(メタデータ) (2024-04-04T03:50:34Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - UQuAD1.0: Development of an Urdu Question Answering Training Data for
Machine Reading Comprehension [0.0]
本研究は,Urdu Question Answering データセット(UQuAD1.0)の半自動作成について検討する。
UQuAD1.0では、45,000対のQAがオリジナルのSQuAD1.0の機械翻訳と約4000対のクラウドソーシングによって生成される。
XLMRoBERTaと多言語BERTを用いて、それぞれ0.66と0.63のF1スコアを取得する。
論文 参考訳(メタデータ) (2021-11-02T12:25:04Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - A Bi-Encoder LSTM Model For Learning Unstructured Dialogs [0.0]
本稿では,非構造化マルチターンダイアログを学習するLong Short Term Memory(LSTM)アーキテクチャを提案する。
ベンチマークモデルよりRecall@1,Recall@2,Recall@5の精度が0.8%,1.0%,0.3%向上していることを示した。
論文 参考訳(メタデータ) (2021-04-25T21:37:35Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。