論文の概要: Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment
- arxiv url: http://arxiv.org/abs/2508.08424v3
- Date: Mon, 10 Nov 2025 14:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.056395
- Title: Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment
- Title(参考訳): リッチモルフォロジーのためのトークン化の再考:BPEに対するユニグラムの優位性と形態的アライメント
- Authors: Saketh Reddy Vemula, Sandipan Dandapat, Dipti Misra Sharma, Parameswari Krishnamurthy,
- Abstract要約: トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。
より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度で正の相関を示すが、その影響はトークン化アルゴリズムに準じる。
- 参考スコア(独自算出の注目度): 8.097278579432908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationship between tokenizer algorithm (e.g., Byte-Pair Encoding (BPE), Unigram), morphological alignment, tokenization quality (e.g., compression efficiency), and downstream performance remains largely unclear, particularly for languages with complex morphology. In this paper, we conduct a comprehensive evaluation of tokenizers using small-sized BERT models -- from pre-training through fine-tuning -- for Telugu (agglutinative), along with preliminary evaluation in Hindi (primarily fusional with some agglutination) and English (fusional). To evaluate morphological alignment of tokenizers in Telugu, we create a dataset containing gold morpheme segmentations of 600 derivational and 7000 inflectional word forms. Our experiments reveal two key findings for Telugu. First, the choice of tokenizer algorithm is the most significant factor influencing performance, with Unigram-based tokenizers consistently outperforming BPE across most settings. Second, while better morphological alignment shows a moderate, positive correlation with performance on text classification and structure prediction tasks, its impact is secondary to the tokenizer algorithm. Notably, hybrid approaches that use morphological information for pre-segmentation significantly boost the performance of BPE, though not Unigram. Our results further showcase the need for comprehensive intrinsic evaluation metrics for tokenizers that could explain downstream performance trends consistently.
- Abstract(参考訳): トークン化アルゴリズム(例えば、Byte-Pair Encoding (BPE)、Unigram)、モルフォロジーアライメント、トークン化品質(例えば、圧縮効率)と下流性能の関係は、特に複雑な形態を持つ言語では、よく分かっていない。
本稿では,小サイズのBERTモデルを用いたテルーグ(凝集剤)の事前訓練から微調整まで,およびヒンディー語(主に凝集剤との融合)と英語(融合剤)の予備的評価を包括的に実施する。
テルグ語におけるトークン化剤の形態的アライメントを評価するために,600の派生形と7000の屈折形からなる金の形態素セグメンテーションを含むデータセットを作成する。
我々の実験はテルグの2つの重要な発見を明らかにした。
第一に、トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。
第二に、より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度な正の相関を示すが、その影響はトークン化アルゴリズムに二次的である。
特に、形態情報を用いて事前分割を行うハイブリッドアプローチは、Unigramではなく、BPEの性能を著しく向上させる。
以上の結果から,下流のパフォーマンス傾向を一貫した説明が可能なトークン化器の総合的内在的評価指標の必要性が示された。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time [8.28573483085828]
我々は、デンマークの注釈付き形態素データセットを利用して、形態素分割のための半教師付きモデルを訓練する。
デンマーク語の単語をテクスチャ的にセグメント化することで,2つのカスタムな形態素トークン化器を含む4つの異なるトークン化器の評価を行った。
その結果、デンマークのBPEトークン化装置が達成した39.28と比べ、F1スコア58.84を達成し、我々のカスタム開発したトークン化装置はモルフォロジーのセグメンテーションを著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-04-02T09:26:02Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Why do language models perform worse for morphologically complex languages? [0.913127392774573]
凝集型言語と融合型言語のパフォーマンスギャップを示す新たな証拠が発見された。
この性能ギャップの原因として, トークン化剤の形態的アライメント, トークン化品質, データセットサイズと測定の差異の3つが考えられる。
以上の結果から,言語モデルが形態的類型学に基づいて学習することが困難あるいは容易な言語は存在しないことが示唆された。
論文 参考訳(メタデータ) (2024-11-21T15:06:51Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。
実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Neural Token Segmentation for High Token-Internal Complexity [7.569526565230962]
原文をワード単位に変換することは、NLPパイプラインにとって重要な前処理ステップである。
本稿では,文脈化トークン表現とチャレベルデコーディングを組み合わせたニューラルセグメンテーションモデルを提案する。
我々のモデルはヘブライ語とアラビア語の分節精度を最先端と比較して大幅に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-21T10:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。