論文の概要: Grid Search Hyperparameter Benchmarking of BERT, ALBERT, and LongFormer
on DuoRC
- arxiv url: http://arxiv.org/abs/2101.06326v1
- Date: Fri, 15 Jan 2021 23:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:27:11.484752
- Title: Grid Search Hyperparameter Benchmarking of BERT, ALBERT, and LongFormer
on DuoRC
- Title(参考訳): DuoRC上のBERT, ALBERT, LongFormerの格子探索ハイパーパラメータベンチマーク
- Authors: Alex John Quijano, Sam Nguyen, and Juanita Ordonez
- Abstract要約: このプロジェクトの目的は、DuoRCと呼ばれる質問応答データセット上でBERT、ALBERT、LongFormerという3つの言語モデルを評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of this project is to evaluate three language models named BERT,
ALBERT, and LongFormer on the Question Answering dataset called DuoRC. The
language model task has two inputs, a question, and a context. The context is a
paragraph or an entire document while the output is the answer based on the
context. The goal is to perform grid search hyperparameter fine-tuning using
DuoRC. Pretrained weights of the models are taken from the Huggingface library.
Different sets of hyperparameters are used to fine-tune the models using two
versions of DuoRC which are the SelfRC and the ParaphraseRC. The results show
that the ALBERT (pretrained using the SQuAD1 dataset) has an F1 score of 76.4
and an accuracy score of 68.52 after fine-tuning on the SelfRC dataset. The
Longformer model (pretrained using the SQuAD and SelfRC datasets) has an F1
score of 52.58 and an accuracy score of 46.60 after fine-tuning on the
ParaphraseRC dataset. The current results outperformed the results from the
previous model by DuoRC.
- Abstract(参考訳): このプロジェクトの目的は、DuoRCと呼ばれる質問応答データセット上でBERT、ALBERT、LongFormerという3つの言語モデルを評価することである。
言語モデルタスクには、質問とコンテキストという2つの入力がある。
文脈は段落または文書全体であり、出力は文脈に基づいた回答である。
目的は、DuoRCを使ってグリッド探索ハイパーパラメータの微調整を行うことである。
モデルの事前トレーニングされた重みは、hughingfaceライブラリから取得する。
モデルの微調整には、 selfrc と paraphraserc の2つのバージョンの duorc を用いて異なるハイパーパラメータが使用される。
その結果、ALBERT(SQuAD1データセットを使用した事前トレーニング)のF1スコアは76.4、精度スコアは68.52であることがわかった。
Longformerモデル(SQuADとSelfRCデータセットで事前訓練)はF1スコアが52.58、ParaphraseRCデータセットを微調整した後の精度スコアが46.60である。
現在の結果は、DuoRCによる以前のモデルよりも優れていた。
関連論文リスト
- Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - Deep Learning Approach for Classifying the Aggressive Comments on Social
Media: Machine Translated Data Vs Real Life Data [15.813222387547357]
本稿では特に,アグレッシブコメントを検出するために,ヒンディー語,バングラ語,英語のデータセットについて研究した。
機械翻訳された英語データセットを,Long Short term memory model (LSTM), Bidirectional Long-Short term memory model (BiLSTM), word2vec, Bidirectional Representations from Transformers (BERT), Generative Pre-trained Transformer (GPT-2) などのモデルを用いて解析した。
ノイズを含まない生データや、特定のノイズ量を含む半ノイズデータなど、さらに2つのデータセットを用いてノイズデータを使用することの性能を比較した。
論文 参考訳(メタデータ) (2023-03-13T21:43:08Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - UQuAD1.0: Development of an Urdu Question Answering Training Data for
Machine Reading Comprehension [0.0]
本研究は,Urdu Question Answering データセット(UQuAD1.0)の半自動作成について検討する。
UQuAD1.0では、45,000対のQAがオリジナルのSQuAD1.0の機械翻訳と約4000対のクラウドソーシングによって生成される。
XLMRoBERTaと多言語BERTを用いて、それぞれ0.66と0.63のF1スコアを取得する。
論文 参考訳(メタデータ) (2021-11-02T12:25:04Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Overcoming Domain Mismatch in Low Resource Sequence-to-Sequence ASR
Models using Hybrid Generated Pseudotranscripts [7.323753263640563]
シークエンス・ツー・シーケンス(seq2seq)モデルは、音声認識のためのハイブリッドモデルと競合する。
ハイブリッドモデルとSeq2seqモデルの間には、そのようなデータ条件に大きな初期ギャップがあることが示される。
私たちは5つの言語の平均単語エラー率(WER)を66.7%から29.0%に改善しました。
論文 参考訳(メタデータ) (2021-06-14T19:25:57Z) - A Bi-Encoder LSTM Model For Learning Unstructured Dialogs [0.0]
本稿では,非構造化マルチターンダイアログを学習するLong Short Term Memory(LSTM)アーキテクチャを提案する。
ベンチマークモデルよりRecall@1,Recall@2,Recall@5の精度が0.8%,1.0%,0.3%向上していることを示した。
論文 参考訳(メタデータ) (2021-04-25T21:37:35Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - AMR Parsing via Graph-Sequence Iterative Inference [62.85003739964878]
本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。
これら2つの質問に対する回答は相互因果関係であることを示す。
我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。
論文 参考訳(メタデータ) (2020-04-12T09:15:21Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。