論文の概要: BanglaByT5: Byte-Level Modelling for Bangla
- arxiv url: http://arxiv.org/abs/2505.17102v1
- Date: Wed, 21 May 2025 07:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.564587
- Title: BanglaByT5: Byte-Level Modelling for Bangla
- Title(参考訳): BanglaByT5: Banglaのバイトレベルモデリング
- Authors: Pramit Bhattacharyya, Arnab Bhattacharya,
- Abstract要約: ここでは,Banglaに適した最初のバイトレベルのエンコーダデコーダモデルであるBanglaByT5を紹介する。
BanglaByT5は、GoogleのByT5アーキテクチャの小さなバージョンをベースに構築され、高品質の文学記事と新聞記事を組み合わせた14GBのキュレートコーパスで事前訓練されている。
- 参考スコア(独自算出の注目度): 3.9018931027384056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success across various natural language processing tasks. However, most LLM models use traditional tokenizers like BPE and SentencePiece, which fail to capture the finer nuances of a morphologically rich language like Bangla (Bengali). In this work, we introduce BanglaByT5, the first byte-level encoder-decoder model explicitly tailored for Bangla. Built upon a small variant of Googles ByT5 architecture, BanglaByT5 is pre-trained on a 14GB curated corpus combining high-quality literary and newspaper articles. Through zeroshot and supervised evaluations across generative and classification tasks, BanglaByT5 demonstrates competitive performance, surpassing several multilingual and larger models. Our findings highlight the efficacy of byte-level modelling for morphologically rich languages and highlight BanglaByT5 potential as a lightweight yet powerful tool for Bangla NLP, particularly in both resource-constrained and scalable environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクで顕著な成功を収めた。
しかしながら、ほとんどのLLMモデルは、BPEやSentencePieceのような伝統的なトークンライザを使用しており、Bangla(Bengali)のような形態的にリッチな言語の微妙なニュアンスをキャプチャできない。
本稿では,Banglaに最適化された最初のバイトレベルのエンコーダデコーダモデルであるBanglaByT5を紹介する。
BanglaByT5は、GoogleのByT5アーキテクチャの小さなバージョンをベースに構築され、高品質の文学記事と新聞記事を組み合わせた14GBのキュレートコーパスで事前訓練されている。
生成タスクと分類タスクのゼロショットと教師付き評価を通じて、BanglaByT5は競争性能を示し、複数の多言語モデルと大規模モデルを上回っている。
本研究は,Bangla NLPの軽量かつ強力なツールであるBanglaByT5の可能性,特に資源制約や拡張性のある環境でのバイトレベルのモデリングの有効性を強調した。
関連論文リスト
- TigerLLM -- A Family of Bangla Large Language Models [8.258559455995917]
バングラ語モデルのファミリーであるTigerLLMを紹介します。
以上の結果から,これらのモデルがすべてのオープンソース代替品を上回り,GPT3.5のような大型のプロプライエタリモデルを上回る結果が得られた。
論文 参考訳(メタデータ) (2025-03-14T01:41:16Z) - Zero-Shot Multi-Label Classification of Bangla Documents: Large Decoders Vs. Classic Encoders [0.0]
バングラ語は3億人以上の母語話者によって話され、世界でも6番目に話されている言語である。
32種類の最先端モデルの評価結果から,既存の強力なエンコーダやデコーダは,Bangla Zero-Shot-MLCタスクの高精度化に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-04T20:39:07Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural
Language Generation in Bangla [21.47743471497797]
本研究はバングラの自然言語生成モデルを評価するためのベンチマークを示す。
BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。
クリーンコーパス27.5GBのBanglaデータを用いて、Banglaのシーケンス・ツー・シーケンス・トランスフォーマーモデルであるBanglaT5を事前訓練する。
BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。
論文 参考訳(メタデータ) (2022-05-23T06:54:56Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。