論文の概要: SplaXBERT: Leveraging Mixed Precision Training and Context Splitting for Question Answering
- arxiv url: http://arxiv.org/abs/2412.05499v1
- Date: Sat, 07 Dec 2024 02:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:07.607776
- Title: SplaXBERT: Leveraging Mixed Precision Training and Context Splitting for Question Answering
- Title(参考訳): SplaXBERT: 質問応答のための混合精度トレーニングとコンテキスト分割の活用
- Authors: Zhu Yufan, Hao Zeyu, Li Siqi, Niu Boqian,
- Abstract要約: ALBERT-xlargeにコンテキスト分割と混合精度トレーニングを組み込んだSplaXBERTは、長文の問合せタスクにおいて高い効率を達成する。
SQuAD v1.1でテストされ、85.95%、F1スコア92.97%となる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: SplaXBERT, built on ALBERT-xlarge with context-splitting and mixed precision training, achieves high efficiency in question-answering tasks on lengthy texts. Tested on SQuAD v1.1, it attains an Exact Match of 85.95% and an F1 Score of 92.97%, outperforming traditional BERT-based models in both accuracy and resource efficiency.
- Abstract(参考訳): ALBERT-xlarge上に構築されたSplaXBERTは、コンテキスト分割と混合精度のトレーニングにより、長文の問合せタスクにおいて高い効率を達成する。
SQuAD v1.1でテストされ、85.95%のExact Matchと92.97%のF1スコアを達成し、従来のBERTベースのモデルよりも精度と資源効率が優れている。
関連論文リスト
- Larger models yield better results? Streamlined severity classification of ADHD-related concerns using BERT-based knowledge distillation [0.6793286055326242]
自然言語処理アプリケーションのための軽量でパワフルなBERTベースのモデルを作成します。
ソーシャルメディアのテキストデータから,注意欠陥多動性障害(ADHD)の重症度レベルを分類した実世界のタスクに,結果モデルであるLastBERTを適用した。
論文 参考訳(メタデータ) (2024-10-30T17:57:44Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - BEBERT: Efficient and robust binary ensemble BERT [12.109371576500928]
事前訓練されたBERTモデルのバイナリ化はこの問題を軽減することができるが、完全精度のモデルに比べて精度が大幅に低下する。
精度ギャップを埋めるために,効率よく頑健なバイナリアンサンブルBERT(BEBERT)を提案する。
論文 参考訳(メタデータ) (2022-10-28T08:15:26Z) - RoChBert: Towards Robust BERT Fine-tuning for Chinese [31.573147796706223]
RoChBERTは、よりロバストなBERTベースのモデルを構築するためのフレームワークである。
微調整中に、中国語の音声とグリフの特徴を事前訓練された表現に融合させる。
論文 参考訳(メタデータ) (2022-10-28T07:08:00Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Online Ensemble Model Compression using Knowledge Distillation [51.59021417947258]
本稿では,学生アンサンブルからなる知識蒸留に基づくモデル圧縮フレームワークを提案する。
圧縮された各学生モデルに対して同時に学習したアンサンブル知識の蒸留を可能にする。
フレームワークの有効性を検証するために,最先端の分類モデルを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2020-11-15T04:46:29Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。