論文の概要: Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı Analizi
- arxiv url: http://arxiv.org/abs/2508.13058v1
- Date: Mon, 18 Aug 2025 16:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.48336
- Title: Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı Analizi
- Title(参考訳): ドアル・ディル・シュレメデ・トケニツァスヨン・スタンダルトラール・ヴェ・シュルチュム: テュルクチェ・シュツェリンデン・ビュイユク・ディル・モデルレーニン・カルシュラシュトゥルムル・アナリジ
- Authors: M. Ali Bayram, Ali Arda Fincan, Ahmet Semih Gümüş, Sercan Karakaş, Banu Diri, Savaş Yıldırım,
- Abstract要約: 本研究では,トルコ語などの形態学的に豊かな低リソース言語に特有なトークン化問題に対処する新たな評価フレームワークを提案する。
我々は,語彙サイズ,トークン数,処理時間,言語固有のトークンパーセンテージ(%TR),トークン純度(%Pure)に基づいてトークン化器の評価を行った。
分析の結果,言語固有のトークンパーセンテージは,トークン純度よりも下流のパフォーマンス(MMLUスコアなど)との相関が強いことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.29687381456163997
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tokenization is a fundamental preprocessing step in Natural Language Processing (NLP), significantly impacting the capability of large language models (LLMs) to capture linguistic and semantic nuances. This study introduces a novel evaluation framework addressing tokenization challenges specific to morphologically-rich and low-resource languages such as Turkish. Utilizing the Turkish MMLU (TR-MMLU) dataset, comprising 6,200 multiple-choice questions from the Turkish education system, we assessed tokenizers based on vocabulary size, token count, processing time, language-specific token percentages (\%TR), and token purity (\%Pure). These newly proposed metrics measure how effectively tokenizers preserve linguistic structures. Our analysis reveals that language-specific token percentages exhibit a stronger correlation with downstream performance (e.g., MMLU scores) than token purity. Furthermore, increasing model parameters alone does not necessarily enhance linguistic performance, underscoring the importance of tailored, language-specific tokenization methods. The proposed framework establishes robust and practical tokenization standards for morphologically complex languages.
- Abstract(参考訳): トークン化は自然言語処理(NLP)の基本的な前処理ステップであり、言語的および意味的なニュアンスをキャプチャする大規模言語モデル(LLM)の能力に大きな影響を及ぼす。
本研究では,トルコ語などの形態学的に豊かな低リソース言語に特有なトークン化問題に対処する新たな評価フレームワークを提案する。
トルコ語 MMLU (TR-MMLU) データセットを用いて, 語彙サイズ, トークン数, 処理時間, 言語固有のトークンパーセンテージ (\%TR), トークン純度 (\%Pure) に基づいて, 6,200の複数選択質問をトルコ語教育システムから収集した。
これらの新たに提案された指標は、トークン化剤が言語構造をいかに効果的に保存するかを測定する。
分析の結果,言語固有のトークンパーセンテージは,トークン純度よりも下流のパフォーマンス(例えばMMLUスコア)との相関が強いことが明らかとなった。
さらに,モデルパラメータの増大は言語性能を必ずしも向上させるものではない。
提案したフレームワークは、形態学的に複雑な言語に対する堅牢で実用的なトークン化標準を確立する。
関連論文リスト
- How does a Language-Specific Tokenizer affect LLMs? [0.36248657646376703]
言語固有のトークン化器の必要性は、効果的な自然言語処理にとって直感的に重要である。
本研究では、言語固有のトークン化剤が、主に英語のテキストデータを用いて訓練された大規模言語モデルの振る舞いにどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-18T05:54:56Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models [0.0]
トークン化の品質は、モデルが多様な言語を効果的に扱う能力に大きな影響を及ぼす可能性がある。
Qtokは、多言語環境でのパフォーマンスに特に重点を置いて、トークン化ツールの品質を評価するために設計されたツールである。
Qtokはこれらのメトリクスを適用して、58の公開モデルから13の異なるトークン化子を評価し、異なる言語コンテキストでアウトプットを分析する。
論文 参考訳(メタデータ) (2024-10-16T19:34:34Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。