論文の概要: Comparative analysis of subword tokenization approaches for Indian languages
- arxiv url: http://arxiv.org/abs/2505.16868v1
- Date: Thu, 22 May 2025 16:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.453948
- Title: Comparative analysis of subword tokenization approaches for Indian languages
- Title(参考訳): インド語におけるサブワードトークン化手法の比較分析
- Authors: Sudhansu Bala Das, Samujjal Choudhury, Tapas Kumar Mishra, Bidyut Kr. Patra,
- Abstract要約: トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。
サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。
これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。
本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
- 参考スコア(独自算出の注目度): 5.012314384895538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is the act of breaking down text into smaller parts, or tokens, that are easier for machines to process. This is a key phase in machine translation (MT) models. Subword tokenization enhances this process by breaking down words into smaller subword units, which is especially beneficial in languages with complicated morphology or a vast vocabulary. It is useful in capturing the intricate structure of words in Indian languages (ILs), such as prefixes, suffixes, and other morphological variations. These languages frequently use agglutinative structures, in which words are formed by the combination of multiple morphemes such as suffixes, prefixes, and stems. As a result, a suitable tokenization strategy must be chosen to address these scenarios. This paper examines how different subword tokenization techniques, such as SentencePiece, Byte Pair Encoding (BPE), and WordPiece Tokenization, affect ILs. The effectiveness of these subword tokenization techniques is investigated in statistical, neural, and multilingual neural machine translation models. All models are examined using standard evaluation metrics, such as the Bilingual Evaluation Understudy (BLEU) score, TER, METEOR, CHRF, RIBES, and COMET. Based on the results, it appears that for the majority of language pairs for the Statistical and Neural MT models, the SentencePiece tokenizer continuously performed better than other tokenizers in terms of BLEU score. However, BPE tokenization outperformed other tokenization techniques in the context of Multilingual Neural Machine Translation model. The results show that, despite using the same tokenizer and dataset for each model, translations from ILs to English surpassed translations from English to ILs.
- Abstract(参考訳): トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。
これは機械翻訳(MT)モデルのキーフェーズである。
サブワードのトークン化は、単語をより小さなサブワード単位に分割することでこのプロセスを強化する。
これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。
これらの言語はしばしば凝集構造を使用し、接尾辞、接頭辞、幹といった複数の形態素の組み合わせによって単語が形成される。
結果として、これらのシナリオに対処するために適切なトークン化戦略を選択する必要があります。
本稿では,SentencePiece,Byte Pair Encoding (BPE),WordPiece Tokenizationなどのサブワードトークン化技術がILに与える影響について検討する。
これらのサブワードトークン化手法の有効性は,統計,ニューラル,多言語ニューラルマシン翻訳モデルにおいて検討されている。
全てのモデルは、バイリンガル・アセスメント・アンダーストゥディ(BLEU)スコア、TER、METEOR、CHRF、RIBES、COMETなどの標準評価指標を用いて検討される。
結果から,統計およびニューラルMTモデルの言語ペアの大部分は,BLEUスコアの観点からも,SentencePieceトークンライザが他のトークンライザよりも良好に動作していたことが示唆された。
しかし、BPEトークン化は、多言語ニューラルネットワーク翻訳モデルの文脈において、他のトークン化技術よりも優れていた。
その結果、各モデルで同じトークン化とデータセットを使用しても、ILから英語への翻訳は英語からILへの翻訳を上回っていることがわかった。
関連論文リスト
- MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models [0.0]
トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。
Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
論文 参考訳(メタデータ) (2024-03-01T10:03:07Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。