論文の概要: Evaluating Subword Tokenization Techniques for Bengali: A Benchmark Study with BengaliBPE
- arxiv url: http://arxiv.org/abs/2511.05324v1
- Date: Fri, 07 Nov 2025 15:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.812592
- Title: Evaluating Subword Tokenization Techniques for Bengali: A Benchmark Study with BengaliBPE
- Title(参考訳): Bengaliにおけるサブワードトークン化手法の評価:BengaliBPEを用いたベンチマーク研究
- Authors: Firoj Ahmmed Patwary, Abdullah Al Noman,
- Abstract要約: BengaliBPEは、ベンガル文字用の言語対応のサブワードトークンである。
Unicode正規化とモルフォロジーを意識したマージルールを適用して、言語の一貫性を維持し、サブワードの整合性を維持する。
最も詳細なセグメンテーションと最良の形態的解釈性を提供するが、計算コストはわずかに高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is an important first step in Natural Language Processing (NLP) pipelines because it decides how models learn and represent linguistic information. However, current subword tokenizers like SentencePiece or HuggingFace BPE are mostly designed for Latin or multilingual corpora and do not perform well on languages with rich morphology such as Bengali. To address this limitation, we present BengaliBPE, a Byte Pair Encoding (BPE) tokenizer specifically developed for the Bengali script. BengaliBPE applies Unicode normalization, grapheme-level initialization, and morphology-aware merge rules to maintain linguistic consistency and preserve subword integrity. We use a large-scale Bengali news classification dataset to compare BengaliBPE with three baselines: Whitespace, SentencePiece BPE, and HuggingFace BPE. The evaluation considers tokenization granularity, encoding speed, and downstream classification accuracy. While all methods perform reasonably well, BengaliBPE provides the most detailed segmentation and the best morphological interpretability, albeit with slightly higher computational cost. These findings highlight the importance of language-aware tokenization for morphologically rich scripts and establish BengaliBPE as a strong foundation for future Bengali NLP systems, including large-scale pretraining of contextual language models.
- Abstract(参考訳): トークン化は自然言語処理(NLP)パイプラインにおける重要な第一歩であり、モデルがどのように言語情報を学び、表現するかを決定するためである。
しかし、SentencePiece や HuggingFace BPE のような現在のサブワードトークンは、主にラテン語や多言語コーパス用に設計されており、ベンガル語のような豊富な形態を持つ言語ではうまく機能しない。
この制限に対処するために、Bengaliスクリプト用に特別に開発されたByte Pair Encoding (BPE)トークンであるBengaliBPEを提案する。
BengaliBPEはUnicode正規化、Graphemeレベルの初期化、およびモルフォロジーを意識したマージルールを適用して、言語の一貫性を維持し、サブワードの整合性を維持する。
我々は、大規模なベンガルニュース分類データセットを用いて、BengaliBPEとWhitespace、SentencePiece BPE、HuggingFace BPEの3つのベースラインを比較した。
本評価では,トークン化の粒度,符号化速度,下流分類精度について検討する。
すべての手法は合理的に機能するが、BengaliBPEは計算コストがわずかに高いにもかかわらず、最も詳細なセグメンテーションと最良の形態的解釈性を提供する。
これらの知見は、形態学的に豊かなスクリプトに対する言語対応のトークン化の重要性を強調し、ベンガル言語モデルの大規模事前学習を含む、将来のベンガルNLPシステムの強力な基盤としてベンガルBPEを確立した。
関連論文リスト
- Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - Tokenization Matters: Improving Zero-Shot NER for Indic Languages [2.964265227875254]
トークン化は自然言語処理(NLP)の重要な構成要素である
この研究は、BPE、SentencePiece、およびIndic言語を用いた文字レベルのトークン化戦略を体系的に比較する。
その結果、SentencePieceは低リソースのIndic言語において、NERのBPEよりも一貫して優れたパフォーマンスのアプローチであることがわかった。
論文 参考訳(メタデータ) (2025-04-23T17:28:38Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - SuperBPE: Space Travel for Language Models [103.09169510391972]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Byte Pair Encoding Is All You Need For Automatic Bengali Speech
Recognition [0.0]
バイトペア符号化(BPE)は、oo-of-vocabulary(OOV)課題に対処するための効果的なトークン化手法として現れる。
最近の研究は、BPEサブワードトークン化の有効性が言語の形態学的性質に依存していることを強調している。
本研究は,ベンガル語に対するBPEトークンの最適個数を実験的に同定した。
論文 参考訳(メタデータ) (2024-01-28T00:41:21Z) - BNLP: Natural language processing toolkit for Bengali language [0.0]
BNLPはベンガル語のためのオープンソースの言語処理ツールキットである。
トークン化、ワード埋め込み、POSタグ付け、NERタグ付け機能で構成される。
BNLPはベンガルの研究コミュニティで広く利用されており、16Kダウンロード、119の星と31のフォークがある。
論文 参考訳(メタデータ) (2021-01-31T07:56:08Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。