論文の概要: Evaluating Morphological Alignment of Tokenizers in 70 Languages
- arxiv url: http://arxiv.org/abs/2507.06378v1
- Date: Tue, 08 Jul 2025 20:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.381541
- Title: Evaluating Morphological Alignment of Tokenizers in 70 Languages
- Title(参考訳): 70言語における tokenizer の形態的アライメントの評価
- Authors: Catherine Arnett, Marisa Hudspeth, Brendan O'Connor,
- Abstract要約: 我々はMorphScoreを用いて、トークン化者が言語的に意味のあるサブワードを保存する程度を測定する。
5つの事前訓練された言語モデルに対するアライメントスコアと下流タスク性能の相関関係について検討する。
形態的アライメントはモデル性能のばらつきをあまり説明しないことがわかった。
- 参考スコア(独自算出の注目度): 3.160609255173681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While tokenization is a key step in language modeling, with effects on model training and performance, it remains unclear how to effectively evaluate tokenizer quality. One proposed dimension of tokenizer quality is the extent to which tokenizers preserve linguistically meaningful subwords, aligning token boundaries with morphological boundaries within a word. We expand MorphScore (Arnett & Bergen, 2025), which previously covered 22 languages, to support a total of 70 languages. The updated MorphScore offers more flexibility in evaluation and addresses some of the limitations of the original version. We then correlate our alignment scores with downstream task performance for five pre-trained languages models on seven tasks, with at least one task in each of the languages in our sample. We find that morphological alignment does not explain very much variance in model performance, suggesting that morphological alignment alone does not measure dimensions of tokenization quality relevant to model performance.
- Abstract(参考訳): トークン化は言語モデリングにおける重要なステップであり、モデルトレーニングとパフォーマンスに影響を及ぼすが、トークン化の質を効果的に評価する方法は未だ不明である。
トークンーザの品質の1つの提案された次元は、トークンーザが言語的に意味のあるサブワードを保存し、トークン境界を単語内の形態的境界と整合させる範囲である。
以前22言語をカバーしていたMorphScore(Arnett & Bergen, 2025)を,合計70言語をサポートするように拡張しています。
アップデートされたMorphScoreは、評価の柔軟性を高め、オリジナルのバージョンのいくつかの制限に対処する。
次に、アライメントスコアと、7つのタスクで事前訓練された5つの言語モデルのダウンストリームタスクパフォーマンスを相関させ、サンプルの各言語に少なくとも1つのタスクを割り当てる。
形態的アライメントはモデル性能のばらつきをほとんど説明していないことが分かり、形態的アライメントだけではモデル性能に関連するトークン化品質の次元を測らないことが示唆された。
関連論文リスト
- Why do language models perform worse for morphologically complex languages? [0.913127392774573]
凝集型言語と融合型言語のパフォーマンスギャップを示す新たな証拠が発見された。
この性能ギャップの原因として, トークン化剤の形態的アライメント, トークン化品質, データセットサイズと測定の差異の3つが考えられる。
以上の結果から,言語モデルが形態的類型学に基づいて学習することが困難あるいは容易な言語は存在しないことが示唆された。
論文 参考訳(メタデータ) (2024-11-21T15:06:51Z) - Tokenization and Morphology in Multilingual Language Models: A Comparative Analysis of mT5 and ByT5 [4.779196219827507]
トークン化の影響を、mT5とByT5という2つの多言語言語モデルと対比して捉えた。
4つのタスクと17の言語でこれらのモデルに符号化された形態学的知識を解析した結果、モデルが他の言語よりも優れた形態学系を学習していることが判明した。
論文 参考訳(メタデータ) (2024-10-15T14:14:19Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - MorphPiece : A Linguistic Tokenizer for Large Language Models [3.8073142980733]
基礎となるテキストの形態的セグメンテーションにもとづく言語的に動機付けられたトークン化スキームであるMorphPieceを提案する。
このトークン化器(MorphGPTと呼ばれる)で訓練されたGPTスタイルの因果言語モデルは、様々な教師付きおよび教師なしのNLPタスクにおいて同等または優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-07-14T10:35:04Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。