論文の概要: AraPoemBERT: A Pretrained Language Model for Arabic Poetry Analysis
- arxiv url: http://arxiv.org/abs/2403.12392v1
- Date: Tue, 19 Mar 2024 02:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:41:42.526426
- Title: AraPoemBERT: A Pretrained Language Model for Arabic Poetry Analysis
- Title(参考訳): AraPoemBERT:アラビア詩分析のための事前訓練された言語モデル
- Authors: Faisal Qarah,
- Abstract要約: AraPoemBERTはアラビア語の詩文に特化して訓練されたアラビア語モデルである。
AraPoemBERTは、詩のジェンダー分類と詩のサブメーター分類という3つの新しいタスクのうちの2つにおいて、前例のない精度を達成した。
この研究で使用されるデータセットには、オンラインソースから収集された2億9900万の詩が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Arabic poetry, with its rich linguistic features and profound cultural significance, presents a unique challenge to the Natural Language Processing (NLP) field. The complexity of its structure and context necessitates advanced computational models for accurate analysis. In this paper, we introduce AraPoemBERT, an Arabic language model pretrained exclusively on Arabic poetry text. To demonstrate the effectiveness of the proposed model, we compared AraPoemBERT with 5 different Arabic language models on various NLP tasks related to Arabic poetry. The new model outperformed all other models and achieved state-of-the-art results in most of the downstream tasks. AraPoemBERT achieved unprecedented accuracy in two out of three novel tasks: poet's gender classification (99.34\% accuracy), and poetry sub-meter classification (97.79\% accuracy). In addition, the model achieved an accuracy score in poems' rhyme classification (97.73\% accuracy) which is almost equivalent to the best score reported in this study. Moreover, the proposed model significantly outperformed previous work and other comparative models in the tasks of poems' sentiment analysis, achieving an accuracy of 78.95\%, and poetry meter classification (99.03\% accuracy), while significantly expanding the scope of these two problems. The dataset used in this study, contains more than 2.09 million verses collected from online sources, each associated with various attributes such as meter, sub-meter, poet, rhyme, and topic. The results demonstrate the effectiveness of the proposed model in understanding and analyzing Arabic poetry, achieving state-of-the-art results in several tasks and outperforming previous works and other language models included in the study. AraPoemBERT model is publicly available on \url{https://huggingface.co/faisalq}.
- Abstract(参考訳): アラビア語の詩は、その豊かな言語的特徴と文化的意義から、自然言語処理(NLP)分野に固有の課題を呈している。
その構造と文脈の複雑さは、正確な解析のために高度な計算モデルを必要とする。
本稿では,アラビア詩文にのみ事前訓練されたアラビア語モデルであるAraPoemBERTを紹介する。
提案モデルの有効性を示すため,アラビア詩に関連するさまざまなNLP課題に対して,アラビア語モデルと5つの異なるアラビア語モデルを比較した。
新しいモデルは、他のすべてのモデルより優れ、ダウンストリームタスクの大部分で最先端の結果を得た。
AraPoemBERTは、詩のジェンダー分類(99.34\%の精度)と詩のサブメーター分類(97.79\%の精度)の3つの新しいタスクのうち、前例のない精度を達成した。
さらに、このモデルは詩の韻律分類(97.73\%の精度)において、この研究で報告された最良のスコアとほぼ等しい精度のスコアを得た。
さらに, 提案モデルでは, 詩の感情分析のタスクにおいて, 従来の作業や比較モデルよりも, 78.95\%の精度, 詩数計の分類(99.03\%の精度)に優れており, これら2つの問題の範囲を大きく広げている。
本研究で用いたデータセットは、オンラインソースから収集された2億9900万以上の詩を収録しており、それぞれにメーター、サブメーター、詩人、韻律、トピックといった様々な属性が関連付けられている。
その結果、提案モデルがアラビア詩の理解と分析、いくつかのタスクにおける最先端の成果の達成、研究に含まれる以前の作品や他の言語モデルよりも優れていたことを示す。
AraPoemBERT モデルは \url{https://huggingface.co/faisalq} で公開されている。
関連論文リスト
- AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。
我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。
最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文 参考訳(メタデータ) (2024-06-06T21:11:53Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - ALBERTI, a Multilingual Domain Specific Language Model for Poetry
Analysis [0.0]
我々は、詩のための最初の多言語事前訓練された大規模言語モデルであるtextscAlbertiを提示する。
さらに12言語から1200万節以上のコーパスで多言語BERTを訓練した。
textscAlbertiは、ルールベースのシステムと比較して、ドイツ語の最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-03T22:50:53Z) - Parameter and Data Efficient Continual Pre-training for Robustness to
Dialectal Variance in Arabic [9.004920233490642]
多言語BERT(mBERT)がアラビア語単言語データに漸進的に事前訓練されることは、トレーニング時間が少なく、我々のカスタム単言語単言語モデルと比較すると、同等の精度が得られることを示す。
次に,(1)少数の方言データを用いて連続的な微調整を行い,(2)アラビア語から英語への平行なデータと翻訳言語モデリング損失関数を探索する。
論文 参考訳(メタデータ) (2022-11-08T02:51:57Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。