論文の概要: Can Perplexity Predict Fine-tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali
- arxiv url: http://arxiv.org/abs/2404.18071v2
- Date: Mon, 09 Jun 2025 10:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:08.402745
- Title: Can Perplexity Predict Fine-tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali
- Title(参考訳): パープレキシティは微調整性能を予測できるか? : ネパールにおける逐次言語モデルに対するトークン化効果の検討
- Authors: Nishant Luitel, Nirajan Bekoju, Anand Kumar Sah, Subarna Shakya,
- Abstract要約: SentencePieceトークン化は、ネパールの理解に基づくタスクにおいて、一貫して優れた結果をもたらす。
本研究はシーケンシャルトランスフォーマーモデルについて検討し,低リソース言語における言語モデル開発に有用な知見を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impact of subword tokenization on language model performance is well-documented for perplexity, with finer granularity consistently reducing this intrinsic metric. However, research on how different tokenization schemes affect a model's understanding capabilities remains limited, particularly for non-Latin script languages. Addressing this gap, we conducted a comprehensive evaluation of six distinct tokenization strategies by pretraining transformer-based language models for Nepali and evaluating their performance across multiple downstream tasks. While recent prominent models like GPT, RoBERTa, Claude, LLaMA, Mistral, Falcon, and MPT have adopted byte-level BPE tokenization, our findings demonstrate that for Nepali, SentencePiece tokenization consistently yields superior results on understanding-based tasks. Unlike previous studies that primarily focused on BERT-based architectures, our research specifically examines sequential transformer models, providing valuable insights for language model development in low-resource languages and highlighting the importance of tokenization strategy beyond perplexity reduction.
- Abstract(参考訳): サブワードのトークン化が言語モデルの性能に与える影響は、難易度によく文書化されており、より微細な粒度は、この本質的な計量を一貫して減少させる。
しかしながら、異なるトークン化スキームがモデルの理解能力にどのように影響するかの研究は、特に非ラテン語のスクリプト言語では限定的である。
このギャップに対処するため、ネパール語のためのトランスフォーマーベース言語モデルを事前学習し、複数の下流タスクでそれらの性能を評価することにより、6つの異なるトークン化戦略を総合的に評価した。
GPT、RoBERTa、Claude、LLaMA、Mistral、Falcon、MPTといった最近の著名なモデルではバイトレベルのBPEトークン化が採用されているが、ネパールではSentencePieceトークン化が一貫して理解に基づくタスクにおいて優れた結果をもたらすことが示されている。
BERTベースのアーキテクチャを主眼とする従来の研究とは異なり、我々はシーケンシャルトランスフォーマーモデルを特に検討し、低リソース言語における言語モデル開発に貴重な洞察を与え、難易度低減以上のトークン化戦略の重要性を強調した。
関連論文リスト
- DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End
Language Modeling [0.0]
本稿では,適応型ニューラルトケニズAtionのモジュールであるMANTaを提案する。
ManTaは、言語モデルでエンドツーエンドにトレーニングされた差別化可能なトークンエーザである。
MANTaは一般ドメインGLUEベンチマークで他のモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-14T15:33:44Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。