論文の概要: Comparative Analysis of Tokenization Algorithms for Low-Resource Language Dzongkha
- arxiv url: http://arxiv.org/abs/2509.15255v1
- Date: Thu, 18 Sep 2025 07:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.822292
- Title: Comparative Analysis of Tokenization Algorithms for Low-Resource Language Dzongkha
- Title(参考訳): 低リソース言語Dzongkhaにおけるトークン化アルゴリズムの比較解析
- Authors: Tandin Wangchuk, Tad Gonsalves,
- Abstract要約: 事前訓練されたトークンライザのほとんどは、英語のような高リソース言語に適しているが、低リソース言語では性能が悪い。
本研究では,他の一般的な手法と比較して,3種類の共通トークン化アルゴリズムの訓練と性能を評価する。
結果は、3つのアルゴリズムがすべてポテンシャルを示す一方で、SentencePieceはDzongkhaトークン化に最も効果的であることを示している。
- 参考スコア(独自算出の注目度): 0.1019561860229868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are gaining popularity and improving rapidly. Tokenizers are crucial components of natural language processing, especially for LLMs. Tokenizers break down input text into tokens that models can easily process while ensuring the text is accurately represented, capturing its meaning and structure. Effective tokenizers enhance the capabilities of LLMs by improving a model's understanding of context and semantics, ultimately leading to better performance in various downstream tasks, such as translation, classification, sentiment analysis, and text generation. Most pre-trained tokenizers are suitable for high-resource languages like English but perform poorly for low-resource languages. Dzongkha, Bhutan's national language spoken by around seven hundred thousand people, is a low-resource language, and its linguistic complexity poses unique NLP challenges. Despite some progress, significant research in Dzongkha NLP is lacking, particularly in tokenization. This study evaluates the training and performance of three common tokenization algorithms in comparison to other popular methods. Specifically, Byte-Pair Encoding (BPE), WordPiece, and SentencePiece (Unigram) were evaluated for their suitability for Dzongkha. Performance was assessed using metrics like Subword Fertility, Proportion of Continued Words, Normalized Sequence Length, and execution time. The results show that while all three algorithms demonstrate potential, SentencePiece is the most effective for Dzongkha tokenization, paving the way for further NLP advancements. This underscores the need for tailored approaches for low-resource languages and ongoing research. In this study, we presented three tokenization algorithms for Dzongkha, paving the way for building Dzongkha Large Language Models.
- Abstract(参考訳): 大規模言語モデル(LLM)が人気を集め、急速に改善している。
トケナイザーは自然言語処理の重要な構成要素であり、特にLLMにとって重要である。
トークンは入力テキストをトークンに分解し、その意味と構造を正確に表現しながら、モデルが容易に処理できる。
効果的なトークン化器は、文脈や意味に関するモデルの理解を改善し、最終的に翻訳、分類、感情分析、テキスト生成などの下流タスクのパフォーマンスを向上させることによって、LCMの能力を高める。
事前訓練されたトークンライザのほとんどは、英語のような高リソース言語に適しているが、低リソース言語では性能が悪い。
ブータンで約7万人が話している国語であるDzongkhaは低リソース言語であり、その言語的複雑さはユニークなNLP問題を引き起こす。
幾らかの進歩にもかかわらず、特にトークン化において、Dzongkha NLPにおける重要な研究は欠落している。
本研究では,他の一般的な手法と比較して,3つの共通トークン化アルゴリズムのトレーニングと性能を評価する。
具体的には, Byte-Pair Encoding (BPE), WordPiece, SentencePiece (Unigram) をDzongkhaに適したものとして評価した。
パフォーマンスは、サブワードのフェーティリティ、継続語の提供、正規化シーケンス長、実行時間といったメトリクスを使用して評価された。
結果は、3つのアルゴリズムがすべて潜在可能性を証明しているのに対して、SentencePiece は Dzongkha のトークン化に最も効果的であり、さらなる NLP の進歩の道を開いたことを示している。
このことは、低リソース言語と進行中の研究のための調整されたアプローチの必要性を浮き彫りにしている。
本研究では,Dzongkha大言語モデル構築のための3つのトークン化アルゴリズムを提案する。
関連論文リスト
- Tokenization Strategies for Low-Resource Agglutinative Languages in Word2Vec: Case Study on Turkish and Finnish [0.0]
トークン化は凝集言語処理において重要な役割を担っている。
本研究は,静的単語埋め込みの品質に及ぼす各種トークン化戦略の影響を評価する。
論文 参考訳(メタデータ) (2025-08-27T22:01:11Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
論文 参考訳(メタデータ) (2025-07-31T05:16:43Z) - Tokenization Matters: Improving Zero-Shot NER for Indic Languages [2.964265227875254]
トークン化は自然言語処理(NLP)の重要な構成要素である
この研究は、BPE、SentencePiece、およびIndic言語を用いた文字レベルのトークン化戦略を体系的に比較する。
その結果、SentencePieceは低リソースのIndic言語において、NERのBPEよりも一貫して優れたパフォーマンスのアプローチであることがわかった。
論文 参考訳(メタデータ) (2025-04-23T17:28:38Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。