論文の概要: AraBART: a Pretrained Arabic Sequence-to-Sequence Model for Abstractive
Summarization
- arxiv url: http://arxiv.org/abs/2203.10945v1
- Date: Mon, 21 Mar 2022 13:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 22:48:49.478080
- Title: AraBART: a Pretrained Arabic Sequence-to-Sequence Model for Abstractive
Summarization
- Title(参考訳): AraBART:抽象要約のためのアラビア列列列モデル
- Authors: Moussa Kamal Eddine, Nadi Tomeh, Nizar Habash, Joseph Le Roux,
Michalis Vazirgiannis
- Abstract要約: BARTに基づいてエンコーダとデコーダを事前訓練した最初のアラビアモデルであるAraBARTを提案する。
AraBARTは複数の抽象的な要約データセット上で最高の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 23.540743628126837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Like most natural language understanding and generation tasks,
state-of-the-art models for summarization are transformer-based
sequence-to-sequence architectures that are pretrained on large corpora. While
most existing models focused on English, Arabic remained understudied. In this
paper we propose AraBART, the first Arabic model in which the encoder and the
decoder are pretrained end-to-end, based on BART. We show that AraBART achieves
the best performance on multiple abstractive summarization datasets,
outperforming strong baselines including a pretrained Arabic BERT-based model
and multilingual mBART and mT5 models.
- Abstract(参考訳): ほとんどの自然言語理解や生成タスクと同様に、要約のための最先端のモデルは、大きなコーパスで事前学習されるトランスフォーマティブベースのシーケンスからシーケンスへのアーキテクチャである。
既存のモデルの多くは英語に焦点を当てていたが、アラビア語は未熟のままであった。
本稿では,バートに基づくエンコーダとデコーダをエンドツーエンドに事前学習した最初のアラビア語モデルであるarabartを提案する。
AraBARTは複数の抽象的な要約データセット上で最高の性能を達成し、事前訓練されたアラビアBERTモデルやマルチリンガルmBARTおよびmT5モデルを含む強力なベースラインを上回っていることを示す。
関連論文リスト
- VBART: The Turkish LLM [0.0]
VBARTはトルコで最初のシークエンス・ツー・シークエンス大型言語モデルであり、スクラッチから大きなコーパスで事前訓練されている。
微調整されたVBARTモデルは、抽象的なテキスト要約、タイトル生成、テキストパラフレーズ化、質問応答、質問生成タスクにおいて、従来の最先端結果を上回る。
論文 参考訳(メタデータ) (2024-03-02T20:40:11Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Sequence-to-Sequence Spanish Pre-trained Language Models [23.084770129038215]
本稿では,スペイン語コーパスにのみ事前学習した有名なエンコーダデコーダアーキテクチャの実装と評価を紹介する。
本稿では,BART,T5,BERT2BERTスタイルのスペイン語版について述べる。
BARTとT5ベースのモデルは、あらゆるタスクでトップパフォーマーとして登場しています。
論文 参考訳(メタデータ) (2023-09-20T12:35:19Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Teaching the Pre-trained Model to Generate Simple Texts for Text
Simplification [59.625179404482594]
トレーニング前の段階では、ランダムなマスキングテキストが通常のテキストに分散しているため、モデルは単純なテキストを生成する能力を得ることができない。
簡単なテキストを生成するための事前学習モデルを学習するための,新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-21T14:03:49Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - BERT Fine-tuning For Arabic Text Summarization [0.0]
我々のモデルは多言語BERTで動作する(アラビア語は独自の事前訓練されたBERTを持っていないため)。
本研究は、アラビア語コーパスに適用する前に、英語コーパスにおいて、抽出タスクと抽象タスクの両方でその性能を示す。
論文 参考訳(メタデータ) (2020-03-29T20:23:14Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。