論文の概要: Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment
- arxiv url: http://arxiv.org/abs/2508.08424v1
- Date: Mon, 11 Aug 2025 19:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.214459
- Title: Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment
- Title(参考訳): リッチモルフォロジーのためのトークン化の再考:BPEに対するユニグラムの優位性と形態的アライメント
- Authors: Saketh Reddy Vemula, Dipti Mishra Sharma, Parameswari Krishnamurthy,
- Abstract要約: 以前の研究は、形態学的に整合したトークン化アプローチが性能を向上させるかどうかに関して矛盾する結果を示した。
我々は、テルグ語(凝集)、ヒンディー語(主に凝集を伴う融合)、英語(融合)の類型的に多様な言語を選択する。
形態的アライメントとトークン化の品質という,2つの重要な要素に注目します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work on language modeling showed conflicting findings about whether morphologically aligned approaches to tokenization improve performance, particularly for languages with complex morphology. To investigate this, we select a typologically diverse set of languages: Telugu (agglutinative), Hindi (primarily fusional with some agglutination), and English (fusional). We conduct a comprehensive evaluation of language models -- starting from tokenizer training and extending through the finetuning and downstream task evaluation. To account for the consistent performance differences observed across tokenizer variants, we focus on two key factors: morphological alignment and tokenization quality. To assess morphological alignment of tokenizers in Telugu, we create a dataset containing gold morpheme segmentations of 600 derivational and 7000 inflectional word forms. Our experiments reveal that better morphological alignment correlates positively -- though moderately -- with performance in syntax-based tasks such as Parts-of-Speech tagging, Named Entity Recognition and Dependency Parsing. However, we also find that the tokenizer algorithm (Byte-pair Encoding vs. Unigram) plays a more significant role in influencing downstream performance than morphological alignment alone. Naive Unigram tokenizers outperform others across most settings, though hybrid tokenizers that incorporate morphological segmentation significantly improve performance within the BPE framework. In contrast, intrinsic metrics like Corpus Token Count (CTC) and R\'enyi entropy showed no correlation with downstream performance.
- Abstract(参考訳): 言語モデリングに関する先行研究は、特に複雑な形態を持つ言語において、トークン化に対する形態学的に整合したアプローチが性能を向上させるかどうかについての矛盾する結果を示した。
これを調べるために,テルグ語(凝集),ヒンディー語(主に凝集を伴う融合),英語(融合)という,類型的に多様な言語群を選択した。
我々は,トークンライザのトレーニングから,微調整および下流タスク評価まで,言語モデルの総合的な評価を行う。トークンライザの変種間で観測される一貫したパフォーマンスの違いを考慮し,形態的アライメントとトークン化品質という2つの重要な要因に着目した。テルーグのトークンライザのモルフォロジーアライメントを評価するために,600の派生語と7000の屈折語形式のゴールドモーフィムセグメンテーションを含むデータセットを作成する。この実験により,より優れたモルフォロジーアライメントが正に相関することが明らかになった。
しかし, トークン化アルゴリズム (Byte-pair Encoding vs. Unigram) は, 形態的アライメントのみよりも下流性能に影響を与える重要な役割を担っている。
しかし、形態的セグメンテーションを組み込んだハイブリッドトークンはBPEフレームワークの性能を大幅に向上させる。
一方,Corpus Token Count (CTC) や R'enyi entropy のような本質的な指標では,下流のパフォーマンスには相関がみられなかった。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time [8.28573483085828]
我々は、デンマークの注釈付き形態素データセットを利用して、形態素分割のための半教師付きモデルを訓練する。
デンマーク語の単語をテクスチャ的にセグメント化することで,2つのカスタムな形態素トークン化器を含む4つの異なるトークン化器の評価を行った。
その結果、デンマークのBPEトークン化装置が達成した39.28と比べ、F1スコア58.84を達成し、我々のカスタム開発したトークン化装置はモルフォロジーのセグメンテーションを著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-04-02T09:26:02Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Why do language models perform worse for morphologically complex languages? [0.913127392774573]
凝集型言語と融合型言語のパフォーマンスギャップを示す新たな証拠が発見された。
この性能ギャップの原因として, トークン化剤の形態的アライメント, トークン化品質, データセットサイズと測定の差異の3つが考えられる。
以上の結果から,言語モデルが形態的類型学に基づいて学習することが困難あるいは容易な言語は存在しないことが示唆された。
論文 参考訳(メタデータ) (2024-11-21T15:06:51Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。
実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Neural Token Segmentation for High Token-Internal Complexity [7.569526565230962]
原文をワード単位に変換することは、NLPパイプラインにとって重要な前処理ステップである。
本稿では,文脈化トークン表現とチャレベルデコーディングを組み合わせたニューラルセグメンテーションモデルを提案する。
我々のモデルはヘブライ語とアラビア語の分節精度を最先端と比較して大幅に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-21T10:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。