論文の概要: Vacaspati: A Diverse Corpus of Bangla Literature
- arxiv url: http://arxiv.org/abs/2307.05083v1
- Date: Tue, 11 Jul 2023 07:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 15:52:42.696484
- Title: Vacaspati: A Diverse Corpus of Bangla Literature
- Title(参考訳): Vacaspati:バングラ文学の多彩なコーパス
- Authors: Pramit Bhattacharyya, Joydeep Mondal, Subhadip Maji, Arnab
Bhattacharya
- Abstract要約: バングラ文学の多種多様なコーパスであるヴァカスパティを造った。
1100万以上の文と1億1500万の単語が含まれている。
我々はまた、VacspatiのFastTextを使った単語埋め込みモデルVac-FTを構築し、コーパスを使用してElectraモデルVac-BERTをトレーニングした。
- 参考スコア(独自算出の注目度): 4.555256739812733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangla (or Bengali) is the fifth most spoken language globally; yet, the
state-of-the-art NLP in Bangla is lagging for even simple tasks such as
lemmatization, POS tagging, etc. This is partly due to lack of a varied quality
corpus. To alleviate this need, we build Vacaspati, a diverse corpus of Bangla
literature. The literary works are collected from various websites; only those
works that are publicly available without copyright violations or restrictions
are collected. We believe that published literature captures the features of a
language much better than newspapers, blogs or social media posts which tend to
follow only a certain literary pattern and, therefore, miss out on language
variety. Our corpus Vacaspati is varied from multiple aspects, including type
of composition, topic, author, time, space, etc. It contains more than 11
million sentences and 115 million words. We also built a word embedding model,
Vac-FT, using FastText from Vacaspati as well as trained an Electra model,
Vac-BERT, using the corpus. Vac-BERT has far fewer parameters and requires only
a fraction of resources compared to other state-of-the-art transformer models
and yet performs either better or similar on various downstream tasks. On
multiple downstream tasks, Vac-FT outperforms other FastText-based models. We
also demonstrate the efficacy of Vacaspati as a corpus by showing that similar
models built from other corpora are not as effective. The models are available
at https://bangla.iitk.ac.in/.
- Abstract(参考訳): Bangla(またはBengali)は世界で5番目に話されている言語である。しかしながら、Banglaの最先端のNLPは、補題化やPOSタグ付けといった単純なタスクでも遅れている。
これは、品質の異なるコーパスが欠けていることによる。
このニーズを緩和するために、我々は、バングラデシュ文学の多様なコーパスであるvacaspatiを構築します。
著作物は様々なウェブサイトから収集され、著作権違反や制限のない公開作品のみが収集される。
私たちは、出版された文学は、特定の文学的パターンのみに従う傾向がある新聞、ブログ、ソーシャルメディアの投稿よりもはるかに優れた言語の特徴を捉えていると信じている。
私たちのコーパスvacaspatiは、構成の種類、トピック、著者、時間、空間など、さまざまな側面から異なります。
1100万以上の文と1億5500万の単語が含まれている。
我々はまた、VacspatiのFastTextを使った単語埋め込みモデルVac-FTを構築し、コーパスを使用してElectraモデルVac-BERTをトレーニングした。
Vac-BERTはパラメータがはるかに少なく、他の最先端のトランスフォーマーモデルに比べて限られたリソースしか必要としないが、様々なダウンストリームタスクではより良く、または類似している。
複数の下流タスクでは、Vac-FTは他のFastTextベースのモデルよりも優れている。
また,他のコーパスから構築した類似モデルほど効果的ではないことを示すことにより,コーパスとしてのvacaspatiの有効性を示す。
モデルはhttps://bangla.iitk.ac.in/で入手できる。
関連論文リスト
- BanglaEmbed: Efficient Sentence Embedding Models for a Low-Resource Language Using Cross-Lingual Distillation Techniques [0.0]
この研究はバングラ語のための2つの軽量な文変換器を導入している。
この方法は、事前訓練されたハイパフォーマンスな英語文変換器からの知識を蒸留する。
新しい手法は既存のBangla文変換器を一貫して上回った。
論文 参考訳(メタデータ) (2024-11-22T13:03:25Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - Plagiarism Detection in the Bengali Language: A Text Similarity-Based
Approach [0.866842899233181]
ベンガル語はバングラデシュで最も広く話されている言語であり、インドで2番目に話されている言語である。
インド国立デジタル図書館からベンガル文学の本を収集し,そのテキストを包括的に抽出し,コーパスを構築した。
OCRを用いたテキスト抽出では,72.10 %~79.89 %の平均精度が得られた。
我々はエンドユーザー向けのWebアプリケーションを構築し、ベンガル文字のプラジャリズム検出に成功しました。
論文 参考訳(メタデータ) (2022-03-25T03:11:00Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。