論文の概要: Vacaspati: A Diverse Corpus of Bangla Literature
- arxiv url: http://arxiv.org/abs/2307.05083v1
- Date: Tue, 11 Jul 2023 07:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 15:52:42.696484
- Title: Vacaspati: A Diverse Corpus of Bangla Literature
- Title(参考訳): Vacaspati:バングラ文学の多彩なコーパス
- Authors: Pramit Bhattacharyya, Joydeep Mondal, Subhadip Maji, Arnab
Bhattacharya
- Abstract要約: バングラ文学の多種多様なコーパスであるヴァカスパティを造った。
1100万以上の文と1億1500万の単語が含まれている。
我々はまた、VacspatiのFastTextを使った単語埋め込みモデルVac-FTを構築し、コーパスを使用してElectraモデルVac-BERTをトレーニングした。
- 参考スコア(独自算出の注目度): 4.555256739812733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangla (or Bengali) is the fifth most spoken language globally; yet, the
state-of-the-art NLP in Bangla is lagging for even simple tasks such as
lemmatization, POS tagging, etc. This is partly due to lack of a varied quality
corpus. To alleviate this need, we build Vacaspati, a diverse corpus of Bangla
literature. The literary works are collected from various websites; only those
works that are publicly available without copyright violations or restrictions
are collected. We believe that published literature captures the features of a
language much better than newspapers, blogs or social media posts which tend to
follow only a certain literary pattern and, therefore, miss out on language
variety. Our corpus Vacaspati is varied from multiple aspects, including type
of composition, topic, author, time, space, etc. It contains more than 11
million sentences and 115 million words. We also built a word embedding model,
Vac-FT, using FastText from Vacaspati as well as trained an Electra model,
Vac-BERT, using the corpus. Vac-BERT has far fewer parameters and requires only
a fraction of resources compared to other state-of-the-art transformer models
and yet performs either better or similar on various downstream tasks. On
multiple downstream tasks, Vac-FT outperforms other FastText-based models. We
also demonstrate the efficacy of Vacaspati as a corpus by showing that similar
models built from other corpora are not as effective. The models are available
at https://bangla.iitk.ac.in/.
- Abstract(参考訳): Bangla(またはBengali)は世界で5番目に話されている言語である。しかしながら、Banglaの最先端のNLPは、補題化やPOSタグ付けといった単純なタスクでも遅れている。
これは、品質の異なるコーパスが欠けていることによる。
このニーズを緩和するために、我々は、バングラデシュ文学の多様なコーパスであるvacaspatiを構築します。
著作物は様々なウェブサイトから収集され、著作権違反や制限のない公開作品のみが収集される。
私たちは、出版された文学は、特定の文学的パターンのみに従う傾向がある新聞、ブログ、ソーシャルメディアの投稿よりもはるかに優れた言語の特徴を捉えていると信じている。
私たちのコーパスvacaspatiは、構成の種類、トピック、著者、時間、空間など、さまざまな側面から異なります。
1100万以上の文と1億5500万の単語が含まれている。
我々はまた、VacspatiのFastTextを使った単語埋め込みモデルVac-FTを構築し、コーパスを使用してElectraモデルVac-BERTをトレーニングした。
Vac-BERTはパラメータがはるかに少なく、他の最先端のトランスフォーマーモデルに比べて限られたリソースしか必要としないが、様々なダウンストリームタスクではより良く、または類似している。
複数の下流タスクでは、Vac-FTは他のFastTextベースのモデルよりも優れている。
また,他のコーパスから構築した類似モデルほど効果的ではないことを示すことにより,コーパスとしてのvacaspatiの有効性を示す。
モデルはhttps://bangla.iitk.ac.in/で入手できる。
関連論文リスト
- Dolma: an Open Corpus of Three Trillion Tokens for Language Model
Pretraining Research [140.6355066137106]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。
本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。
Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Plagiarism Detection in the Bengali Language: A Text Similarity-Based
Approach [0.866842899233181]
ベンガル語はバングラデシュで最も広く話されている言語であり、インドで2番目に話されている言語である。
インド国立デジタル図書館からベンガル文学の本を収集し,そのテキストを包括的に抽出し,コーパスを構築した。
OCRを用いたテキスト抽出では,72.10 %~79.89 %の平均精度が得られた。
我々はエンドユーザー向けのWebアプリケーションを構築し、ベンガル文字のプラジャリズム検出に成功しました。
論文 参考訳(メタデータ) (2022-03-25T03:11:00Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。