論文の概要: FaBERT: Pre-training BERT on Persian Blogs
- arxiv url: http://arxiv.org/abs/2402.06617v1
- Date: Fri, 9 Feb 2024 18:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 15:37:33.449251
- Title: FaBERT: Pre-training BERT on Persian Blogs
- Title(参考訳): FaBERT:ペルシャのブログでBERTを事前トレーニング
- Authors: Mostafa Masumi, Seyed Soroush Majd, Mehrnoush Shamsfard, Hamid Beigy
- Abstract要約: FaBERTはHmBlogs corpusで事前訓練されたペルシアのBERTベースモデルである。
ペルシア語で広く使われている多様な文構造と言語様式の複雑さに対処する。
- 参考スコア(独自算出の注目度): 13.566089841138938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FaBERT, a Persian BERT-base model pre-trained on the HmBlogs
corpus, encompassing both informal and formal Persian texts. FaBERT is designed
to excel in traditional Natural Language Understanding (NLU) tasks, addressing
the intricacies of diverse sentence structures and linguistic styles prevalent
in the Persian language. In our comprehensive evaluation of FaBERT on 12
datasets in various downstream tasks, encompassing Sentiment Analysis (SA),
Named Entity Recognition (NER), Natural Language Inference (NLI), Question
Answering (QA), and Question Paraphrasing (QP), it consistently demonstrated
improved performance, all achieved within a compact model size. The findings
highlight the importance of utilizing diverse and cleaned corpora, such as
HmBlogs, to enhance the performance of language models like BERT in Persian
Natural Language Processing (NLP) applications. FaBERT is openly accessible at
https://huggingface.co/sbunlp/fabert
- Abstract(参考訳): 本稿では,HmBlogsコーパスで事前訓練されたペルシャのBERTベースモデルであるFaBERTを紹介する。
FaBERTは従来の自然言語理解(NLU)タスクに優れ、ペルシア語で広く使われている多様な文構造や言語スタイルの複雑さに対処するように設計されている。
各種下流タスクにおける12のデータセットに対するFaBERTの包括的評価では、知覚分析(SA)、名前付きエンティティ認識(NER)、自然言語推論(NLI)、質問回答(QA)、質問回答(QP)の順に、コンパクトなモデルサイズで達成されたパフォーマンスを一貫して示す。
この発見は,ペルシャ自然言語処理(NLP)アプリケーションにおけるBERTのような言語モデルの性能を高めるために,HmBlogsのような多様でクリーンなコーパスを活用することの重要性を強調した。
fabertはhttps://huggingface.co/sbunlp/fabertでオープンアクセス可能
関連論文リスト
- FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian [0.0]
テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
論文 参考訳(メタデータ) (2021-10-18T08:20:40Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z) - AraBERT: Transformer-based Model for Arabic Language Understanding [0.0]
我々は、BERTが英語で行ったのと同じ成功を達成するために、特にアラビア語のためにBERTを事前訓練した。
その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-02-28T22:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。