論文の概要: Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages
- arxiv url: http://arxiv.org/abs/2411.12240v1
- Date: Tue, 19 Nov 2024 05:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:14.394931
- Title: Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages
- Title(参考訳): 公式インド語全体にわたる大規模言語モデルのトケナイザ性能評価
- Authors: S. Tamang, D. J. Bora,
- Abstract要約: 本稿では,12の大規模言語モデル (LLM) が使用するトークンの包括的評価を行った。
SUTRAトークンライザは、いくつかのIndic特化モデルを含む他のモデルよりも優れており、14言語で優れている。
本研究は,多言語およびインデックス中心モデルを対象としたトークン化戦略の開発において重要であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) based on transformer architectures have revolutionized a variety of domains, with tokenization playing a pivotal role in their pre-processing and fine-tuning stages. In multilingual models, particularly those tailored for Indic languages, effective tokenization is crucial for optimizing performance. This paper presents a comprehensive evaluation of tokenizers used by 12 LLMs across all 22 official languages of India, with a focus on comparing the efficiency of their tokenization processes. We employed the Normalized Sequence Length (NSL) as a key metric in our analysis. Our findings reveal that the SUTRA tokenizer outperforms all other models, including several Indic-specific models, excelling in 14 languages. Notable insights include the SUTRA tokenizer's superior handling of Indic languages, GPT-4o's advancement over its predecessor GPT-4 in processing Indian languages, and the limited performance of Project Indus in certain languages. This study underscores the critical importance of developing targeted tokenization strategies for multilingual and Indic-centric models, laying the groundwork for future improvements in tokenizer design to enhance linguistic coverage and model efficiency.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、さまざまなドメインに革命をもたらし、トークン化は前処理と微調整の段階において重要な役割を担っている。
多言語モデル、特にIndic言語に適したモデルでは、効果的なトークン化がパフォーマンスの最適化に不可欠である。
本稿では,インドの公用語22言語すべてを対象に,12のLDMで使用されるトークン化剤の総合的な評価を行い,それらのトークン化プロセスの効率性の比較に焦点をあてる。
解析の鍵となる指標として正規化シーケンス長(NSL)を用いた。
以上の結果から,SUTRAトークンーザは,14言語で優れたIndic特化モデルを含む,他のモデルよりも優れていることがわかった。
注目すべき洞察としては、SUTRAトークンライザがIndic言語を優遇していること、GPT-4oがインドの言語処理において前任のGPT-4より進歩していること、特定の言語でのProject Indusの性能が制限されていることが挙げられる。
本研究は,多言語およびインデックス中心のモデルを対象としたトークン化戦略の開発において,重要な重要性を浮き彫りにし,言語的カバレッジとモデル効率を向上させるために,トークン化設計の今後の改善に向けた基礎を固めるものである。
関連論文リスト
- Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs) [0.09374652839580183]
本稿では,最先端の大規模言語モデル(LLM)が採用するトークン化手法について述べる。
本研究は,これらのモデル間で観測されるトークン化の多様性を評価し,サブワードトークン化における言語表現の課題について検討する。
本研究の目的は、この領域以降のAIサービスの開発において、一般化可能な国際化(I18N)の実践を促進することである。
論文 参考訳(メタデータ) (2024-10-04T16:18:29Z) - One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - Evaluating the Translation Performance of Large Language Models Based on Euas-20 [8.913245134585283]
我々は,翻訳タスクにおける大規模言語モデルの性能,異なる言語における翻訳能力,および研究者や開発者のLLMの翻訳能力に対する事前学習データの影響を評価する。
論文 参考訳(メタデータ) (2024-08-06T11:49:11Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Comparison of Pre-trained Language Models for Turkish Address Parsing [0.0]
トルコの地図データに着目し,多言語とトルコを基盤とするBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。
また,一層ファインチューニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:09:43Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages [0.8155575318208631]
Transformerアーキテクチャに基づく言語モデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ、報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
論文 参考訳(メタデータ) (2020-11-04T14:43:43Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。