論文の概要: Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay
- arxiv url: http://arxiv.org/abs/2602.06942v1
- Date: Fri, 06 Feb 2026 18:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.536328
- Title: Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay
- Title(参考訳): 大規模トルコ語単語の最適戦略:データ,語彙,形態的相互作用の体系的評価
- Authors: Duygu Altinok,
- Abstract要約: トークン化は、形態学的にリッチな言語におけるニューラル言語モデリングのための重要な設計選択である。
トルコ語サブワードのトークン化に関する、最初の包括的で原則化された研究を提示する。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tokenization is a pivotal design choice for neural language modeling in morphologically rich languages (MRLs) such as Turkish, where productive agglutination challenges both vocabulary efficiency and morphological fidelity. Prior studies have explored tokenizer families and vocabulary sizes but typically (i) vary vocabulary without systematically controlling the tokenizer's training corpus, (ii) provide limited intrinsic diagnostics, and (iii) evaluate a narrow slice of downstream tasks. We present the first comprehensive, principled study of Turkish subword tokenization; a "subwords manifest", that jointly varies vocabulary size and tokenizer training corpus size (data and vocabulary coupling), compares multiple tokenizer families under matched parameter budgets (WordPiece, morphology level, and character baselines), and evaluates across semantic (NLI, STS, sentiment analysis, NER), syntactic (POS, dependency parsing), and morphology-sensitive probes. To explain why tokenizers succeed or fail, we introduce a morphology-aware diagnostic toolkit that goes beyond coarse aggregates to boundary-level micro/macro F1, decoupled lemma atomicity vs. surface boundary hits, over/under-segmentation indices, character/word edit distances (CER/WER), continuation rates, and affix-type coverage and token-level atomicity. Our contributions are fourfold: (i) a systematic investigation of the vocabulary-corpus-success triad; (ii) a unified, morphology-aware evaluation framework linking intrinsic diagnostics to extrinsic outcomes; (iii) controlled comparisons identifying when character-level and morphology-level tokenization pay off; and (iv) an open-source release of evaluation code, tokenizer pipelines, and models. As the first work of its kind, this "subwords manifest" delivers actionable guidance for building effective tokenizers in MRLs and establishes a reproducible foundation for future research.
- Abstract(参考訳): トケナイズ(Tokenization)は、トルコ語のような形態学的に豊かな言語(MRL)におけるニューラル言語モデリングにおける重要な設計選択であり、生産的凝集は語彙効率と形態的忠実性の両方に挑戦する。
以前の研究では、トークン化剤ファミリーと語彙サイズが研究されてきたが、典型的にはそうである。
(i)トークン発行者のトレーニングコーパスを体系的に制御することなく、語彙が変化すること。
(二)内因性診断の限界、及び
(iii)下流タスクの狭いスライスを評価する。
本研究は,トルコ語サブワードのトークン化に関する最初の包括的,原則的研究であり,語彙サイズとトークン化者のトレーニングコーパスサイズ(データと語彙の結合)を共同で変更し,マッチングパラメータ予算(WordPiece,形態学レベル,文字ベースライン)の下で複数のトークン化者ファミリーを比較し,セマンティック(NLI,STS,感情分析,NER)、構文(POS,依存性解析)、形態素感受性プローブを評価した。
トークン化器が成功・失敗する理由を説明するために, 粗い凝集体から境界レベルのマイクロ/マクロF1, 切り離されたレムマ原子性対表面境界ヒット, オーバー/アンダーセグメンテーション指標, 文字/単語編集距離(CER/WER), 継続率, 接尾辞型カバレッジ, トークンレベルの原子性を示す。
私たちの貢献は4倍です。
一 語彙コーパス三項の体系的な調査
二 内因性診断を外因性結果に結びつける統一的形態学的評価枠組み
三 文字レベル及び形態レベルのトークン化がいつ償われるかを特定する比較、及び
(iv)評価コード、トークン化パイプライン、モデルのオープンソースリリース。
この種の最初の研究として、この「サブワードマニフェスト」は、MRLに効果的なトークン化剤を構築するための実用的なガイダンスを提供し、将来の研究のための再現可能な基盤を確立する。
関連論文リスト
- Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation [9.23725598061561]
本研究は3つのサブワードパラダイムであるByte Pairを体系的に比較する。
BPE(Overlap BPE)、OBPE(Overlap BPE)、Unigram Language Model(Unigram Language Model)。
OBPEは従来手法よりも強い形態的アライメントとタグ付け精度を実現する。
論文 参考訳(メタデータ) (2026-02-04T05:59:25Z) - Tokenization Strategies for Low-Resource Agglutinative Languages in Word2Vec: Case Study on Turkish and Finnish [0.0]
トークン化は凝集言語処理において重要な役割を担っている。
本研究は,静的単語埋め込みの品質に及ぼす各種トークン化戦略の影響を評価する。
論文 参考訳(メタデータ) (2025-08-27T22:01:11Z) - Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [8.097278579432908]
トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。
より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度で正の相関を示すが、その影響はトークン化アルゴリズムに準じる。
論文 参考訳(メタデータ) (2025-08-11T19:23:59Z) - Comparative analysis of subword tokenization approaches for Indian languages [5.012314384895538]
トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。
サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。
これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。
本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-22T16:24:37Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。