論文の概要: FaBERT: Pre-training BERT on Persian Blogs
- arxiv url: http://arxiv.org/abs/2402.06617v1
- Date: Fri, 9 Feb 2024 18:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 15:37:33.449251
- Title: FaBERT: Pre-training BERT on Persian Blogs
- Title(参考訳): FaBERT:ペルシャのブログでBERTを事前トレーニング
- Authors: Mostafa Masumi, Seyed Soroush Majd, Mehrnoush Shamsfard, Hamid Beigy
- Abstract要約: FaBERTはHmBlogs corpusで事前訓練されたペルシアのBERTベースモデルである。
ペルシア語で広く使われている多様な文構造と言語様式の複雑さに対処する。
- 参考スコア(独自算出の注目度): 13.566089841138938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FaBERT, a Persian BERT-base model pre-trained on the HmBlogs
corpus, encompassing both informal and formal Persian texts. FaBERT is designed
to excel in traditional Natural Language Understanding (NLU) tasks, addressing
the intricacies of diverse sentence structures and linguistic styles prevalent
in the Persian language. In our comprehensive evaluation of FaBERT on 12
datasets in various downstream tasks, encompassing Sentiment Analysis (SA),
Named Entity Recognition (NER), Natural Language Inference (NLI), Question
Answering (QA), and Question Paraphrasing (QP), it consistently demonstrated
improved performance, all achieved within a compact model size. The findings
highlight the importance of utilizing diverse and cleaned corpora, such as
HmBlogs, to enhance the performance of language models like BERT in Persian
Natural Language Processing (NLP) applications. FaBERT is openly accessible at
https://huggingface.co/sbunlp/fabert
- Abstract(参考訳): 本稿では,HmBlogsコーパスで事前訓練されたペルシャのBERTベースモデルであるFaBERTを紹介する。
FaBERTは従来の自然言語理解(NLU)タスクに優れ、ペルシア語で広く使われている多様な文構造や言語スタイルの複雑さに対処するように設計されている。
各種下流タスクにおける12のデータセットに対するFaBERTの包括的評価では、知覚分析(SA)、名前付きエンティティ認識(NER)、自然言語推論(NLI)、質問回答(QA)、質問回答(QP)の順に、コンパクトなモデルサイズで達成されたパフォーマンスを一貫して示す。
この発見は,ペルシャ自然言語処理(NLP)アプリケーションにおけるBERTのような言語モデルの性能を高めるために,HmBlogsのような多様でクリーンなコーパスを活用することの重要性を強調した。
fabertはhttps://huggingface.co/sbunlp/fabertでオープンアクセス可能
関連論文リスト
- Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian [0.0]
テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
論文 参考訳(メタデータ) (2021-10-18T08:20:40Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - EstBERT: A Pretrained Language-Specific BERT for Estonian [0.3674863913115431]
本稿では,エストニア語のための言語固有BERTモデルであるEstBERTについて述べる。
最近の研究はエストニアのタスクにおける多言語BERTモデルを評価し、ベースラインを上回る結果を得た。
EstBERTに基づくモデルは、6つのタスクのうち5つのタスクにおいて多言語BERTモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-09T21:33:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z) - AraBERT: Transformer-based Model for Arabic Language Understanding [0.0]
我々は、BERTが英語で行ったのと同じ成功を達成するために、特にアラビア語のためにBERTを事前訓練した。
その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-02-28T22:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。