論文の概要: Prune or Retrain: Optimizing the Vocabulary of Multilingual Models for Estonian
- arxiv url: http://arxiv.org/abs/2501.02631v1
- Date: Sun, 05 Jan 2025 19:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:38.557891
- Title: Prune or Retrain: Optimizing the Vocabulary of Multilingual Models for Estonian
- Title(参考訳): エストニア語の多言語モデルの語彙を最適化するPrune or Retrain
- Authors: Aleksei Dorkin, Taido Purason, Kairit Sirts,
- Abstract要約: エストニア語に適合するように多言語エンコーダモデルの語彙を変更すると、その下流のパフォーマンスに影響を及ぼす。
本稿では,2つの語彙適応手法の有効性を評価する。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License:
- Abstract: Adapting multilingual language models to specific languages can enhance both their efficiency and performance. In this study, we explore how modifying the vocabulary of a multilingual encoder model to better suit the Estonian language affects its downstream performance on the Named Entity Recognition (NER) task. The motivations for adjusting the vocabulary are twofold: practical benefits affecting the computational cost, such as reducing the input sequence length and the model size, and performance enhancements by tailoring the vocabulary to the particular language. We evaluate the effectiveness of two vocabulary adaptation approaches -- retraining the tokenizer and pruning unused tokens -- and assess their impact on the model's performance, particularly after continual training. While retraining the tokenizer degraded the performance of the NER task, suggesting that longer embedding tuning might be needed, we observed no negative effects on pruning.
- Abstract(参考訳): 多言語言語モデルを特定の言語に適応させることで、その効率性と性能が向上する。
本研究では,エストニア語に適合する多言語エンコーダモデルの語彙の変更が,NERタスクのダウンストリーム性能にどのように影響するかを検討する。
ボキャブラリを調整する動機は2つある:入力シーケンスの長さとモデルサイズを減少させるなど、計算コストに影響を与える実践的な利点と、ボキャブラリを特定の言語に合わせることでパフォーマンスの向上である。
2つの語彙適応手法(トークン化器の再訓練と未使用トークンの刈り取り)の有効性を評価し、特に連続訓練後のモデルの性能への影響を評価する。
トークン化器の再訓練では, NERタスクの性能が低下し, 組込みチューニングが長くなる可能性が示唆されたが, 刈り込みに負の影響は見られなかった。
関連論文リスト
- Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss [9.807885676930308]
本稿では, 単語の非対称的な寄与を取り入れた三重項損失を用いた慣用性モデルを提案する。
提案手法はSemEvalの課題に基づいて評価され,多くの指標において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T14:21:41Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Impact of Tokenization on LLaMa Russian Adaptation [0.0]
LLaMaロシア語適応の文脈で語彙置換の問題に対処する可能性を検討する。
自動評価の結果、語彙置換はロシア語のモデルの質を向上させることが示された。
命令調整されたモデルの人間による追加評価は、ロシア語適応語彙を持つモデルがより高いユーザの好みで回答を生成することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:16:03Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Improving Korean NLP Tasks with Linguistically Informed Subword
Tokenization and Sub-character Decomposition [6.767341847275751]
本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。
我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる
本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-11-07T12:08:21Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。