論文の概要: Impact of Tokenization on Language Models: An Analysis for Turkish
- arxiv url: http://arxiv.org/abs/2204.08832v1
- Date: Tue, 19 Apr 2022 12:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:34:36.435676
- Title: Impact of Tokenization on Language Models: An Analysis for Turkish
- Title(参考訳): トークン化が言語モデルに及ぼす影響:トルコ語の分析
- Authors: Cagri Toraman, Eyup Halit Yilmaz, Furkan \c{S}ahinu\c{c}, Oguzhan
Ozcelik
- Abstract要約: 我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 2.4660652494309936
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tokenization is an important text preprocessing step to prepare input tokens
for deep language models. WordPiece and BPE are de facto methods employed by
important models, such as BERT and GPT. However, the impact of tokenization can
be different for morphologically rich languages, such as Turkic languages,
where many words can be generated by adding prefixes and suffixes. We compare
five tokenizers at different granularity levels, i.e. their outputs vary from
smallest pieces of characters to the surface form of words, including a
Morphological-level tokenizer. We train these tokenizers and pretrain
medium-sized language models using RoBERTa pretraining procedure on the Turkish
split of the OSCAR corpus. We then fine-tune our models on six downstream
tasks. Our experiments, supported by statistical tests, reveal that
Morphological-level tokenizer has challenging performance with de facto
tokenizers. Furthermore, we find that increasing the vocabulary size improves
the performance of Morphological and Word-level tokenizers more than that of de
facto tokenizers. The ratio of the number of vocabulary parameters to the total
number of model parameters can be empirically chosen as 20% for de facto
tokenizers and 40% for other tokenizers to obtain a reasonable trade-off
between model size and performance.
- Abstract(参考訳): トークン化は、深層言語モデルの入力トークンを作成するための重要なテキスト前処理ステップである。
WordPieceとBPEは、BERTやGPTといった重要なモデルで使われているデファクトメソッドである。
しかし、接頭辞や接尾辞を追加することで多くの単語を生成するテュルク語のような形態学的に豊かな言語では、トークン化の影響が異なる可能性がある。
異なる粒度レベルの5つのトークン化器を比較する。すなわち、その出力は最小の文字から形態レベルのトークン化器を含む単語の表面形まで様々である。
我々は、トルコのOSCARコーパス分割におけるRoBERTa事前訓練手順を用いて、これらのトークン化器および事前訓練中規模言語モデルを訓練する。
次に6つのダウンストリームタスクでモデルを微調整します。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
さらに,語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
モデルパラメータの総数に対する語彙パラメータの比率は、デファクト・トークンーザの20%、他のトークンーザの40%として経験的に選択され、モデルサイズと性能の間の合理的なトレードオフが得られる。
関連論文リスト
- Tokenization and Morphology in Multilingual Language Models: A Comparative Analysis of mT5 and ByT5 [4.779196219827507]
トークン化の影響を、mT5とByT5という2つの多言語言語モデルと対比して捉えた。
4つのタスクと17の言語でこれらのモデルに符号化された形態学的知識を解析した結果、モデルが他の言語よりも優れた形態学系を学習していることが判明した。
論文 参考訳(メタデータ) (2024-10-15T14:14:19Z) - Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models [0.0]
トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。
Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
論文 参考訳(メタデータ) (2024-03-01T10:03:07Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5
for Machine Translation [9.736284584478032]
特に微調整データに制限がある場合の翻訳における文字レベルのモデリングの有効性を示す。
モデル予測の駆動におけるソーステキストの重要性を評価する一方で,ByT5内の単語レベルのパターンを強調した。
我々は、バイトモデルの効率トレードオフを評価し、翻訳品質を高めるために、非時間クリティカルなシナリオでの使用法を提案する。
論文 参考訳(メタデータ) (2023-02-28T00:50:19Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。