論文の概要: BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural
Language Generation in Bangla
- arxiv url: http://arxiv.org/abs/2205.11081v1
- Date: Mon, 23 May 2022 06:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:08:23.661434
- Title: BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural
Language Generation in Bangla
- Title(参考訳): banglanlg: バングラの低リソース自然言語生成評価のためのベンチマークとリソース
- Authors: Abhik Bhattacharjee, Tahmid Hasan, Wasi Uddin Ahmad, Rifat Shahriyar
- Abstract要約: 本研究はバングラの自然言語生成モデルを評価するためのベンチマークを示す。
BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。
クリーンコーパス27.5GBのBanglaデータを用いて、Banglaのシーケンス・ツー・シーケンス・トランスフォーマーモデルであるBanglaT5を事前訓練する。
BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。
- 参考スコア(独自算出の注目度): 21.47743471497797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents BanglaNLG, a comprehensive benchmark for evaluating
natural language generation (NLG) models in Bangla, a widely spoken yet
low-resource language in the web domain. We aggregate three challenging
conditional text generation tasks under the BanglaNLG benchmark. Then, using a
clean corpus of 27.5 GB of Bangla data, we pretrain BanglaT5, a
sequence-to-sequence Transformer model for Bangla. BanglaT5 achieves
state-of-the-art performance in all of these tasks, outperforming mT5 (base) by
up to 5.4%. We are making the BanglaT5 language model and a leaderboard
publicly available in the hope of advancing future research and evaluation on
Bangla NLG. The resources can be found at
https://github.com/csebuetnlp/BanglaNLG.
- Abstract(参考訳): この研究は、Webドメインで広く話されているが低リソース言語であるBanglaで自然言語生成(NLG)モデルを評価するための包括的なベンチマークであるBanglaNLGを提示する。
BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。
次に、Banglaデータ27.5GBのクリーンコーパスを用いて、Banglaのシーケンス間変換モデルであるBanglaT5を事前訓練する。
BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。
Bangla NLGの今後の研究と評価を進めるために、BanglaT5言語モデルとリーダボードを公開しています。
リソースはhttps://github.com/csebuetnlp/BanglaNLGで見ることができる。
関連論文リスト
- BongLLaMA: LLaMA for Bangla Language [0.0]
BongLLaMAは、大規模なBanglaコーパスと命令チューニングデータセットにのみ焦点を絞った、オープンソースの大規模言語モデルである。
BLPタスクにおけるBongLLaMAの有用性を示すため,本手法,データ拡張手法,微調整の詳細,総合的なベンチマーク結果を提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - LowResource at BLP-2023 Task 2: Leveraging BanglaBert for Low Resource
Sentiment Analysis of Bangla Language [0.5922488908114022]
本稿では,BLP-2023のタスク2におけるLowResource Teamのシステムについて述べる。
さまざまなソーシャルメディアプラットフォームからの公開投稿とコメントからなるデータセットで感情分析を行う。
我々の主な目的は、Bangla corpusで事前訓練されたBERTモデルであるBanglaBertを利用することです。
論文 参考訳(メタデータ) (2023-11-21T17:21:15Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset [3.922582192616519]
そこで我々は,新しいフィルタパイプラインによって構築された高品質なBangla ParaphraseデータセットであるBanglaParaphraseを提案する。
我々は,BanglaParaphraseの導入を通じて,NLPドメインにおけるBangla言語の低リソース状態を軽減するための一歩を踏み出したい。
論文 参考訳(メタデータ) (2022-10-11T02:52:31Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - A Review of Bangla Natural Language Processing Tasks and the Utility of
Transformer Models [2.5768647103950357]
研究コミュニティで利用可能なBangla NLPタスク、リソース、ツールについてレビューする。
我々は、現在最先端のアルゴリズムを用いて、9つのNLPタスクのために、さまざまなプラットフォームから収集されたデータセットをベンチマークした。
個人と統合されたデータセットを用いてその結果を報告し、今後の研究のためのデータを提供する。
論文 参考訳(メタデータ) (2021-07-08T13:49:46Z) - IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural
Language Generation [45.90242600586664]
インドネシア語における自然言語生成のための最初のベンチマークであるIndoNLGを紹介する。
Indo4B-Plusと呼ばれるインドネシア、サンダン、ジャワのデータセットの広大な、きれいな事前トレーニングコーパスを提供します。
IndoNLGタスクを広範囲に評価することにより,IndoBARTの有効性と効率を評価する。
論文 参考訳(メタデータ) (2021-04-16T16:16:44Z) - GLGE: A New General Language Generation Evaluation Benchmark [139.25515221280767]
General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
論文 参考訳(メタデータ) (2020-11-24T06:59:45Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。