論文の概要: TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment
- arxiv url: http://arxiv.org/abs/2605.13429v1
- Date: Wed, 13 May 2026 12:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.038167
- Title: TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment
- Title(参考訳): TokAlign++: より優れたトークンアライメントによる語彙適応の改善
- Authors: Chong Li, Yingzhuo Deng, Wen Yang, Jiajun Zhang, Chengqing Zong,
- Abstract要約: 非効率的なトークン化は長いトークンIDシーケンスをもたらし、大規模言語モデルのトレーニングと推論を遅くする。
TokAlign++という手法を導入し,より優れたトークンアライメントレキシコンを学習することで語彙適応性能を向上させる。
15言語での実験結果から,本手法は多言語テキスト圧縮率を向上し,バニラモデルの多言語能力の大部分を維持できることが示された。
- 参考スコア(独自算出の注目度): 46.819665083185136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization is a foundational step in the text process of Large Language Models (LLMs). Texts must be first tokenized into token IDs, which are then input to LLMs. Inefficient tokenization results in long token-ID sequences and will slow down the training and inference of LLMs. The fine-grained knowledge transfer between LLMs, like token-level distillation, is also impeded by the mismatch in vocabulary. To bridge this gap, we introduce a method named TokAlign++ to improve vocabulary adaptation performance by learning better token alignment lexicon. The source and target vocabularies are taken as two different languages, and the bilingual token alignment lexicon is learned from monolingual token representations. Model parameters are rearranged following this bilingual lexicon for new vocabulary, and progressively fine-tuned for adaptation. Experimental results on 15 languages show that our method boosts the multilingual text compression rates and preserves most of the multilingual ability of vanilla models. It costs as few as 1k steps to restore the performance of the vanilla model. After unifying vocabularies between vanilla models, token-level distillation remarkably improves the base model with only 235M tokens.
- Abstract(参考訳): トークン化は、Large Language Models (LLM) のテキストプロセスの基本的なステップである。
テキストはトークンIDにトークン化され、LLMに入力される。
非効率的なトークン化は長いトークンIDシーケンスをもたらし、LLMのトレーニングと推論を遅くする。
LLM間の微細な知識伝達は、トークンレベルの蒸留と同様に、語彙のミスマッチによっても妨げられる。
このギャップを埋めるために、より優れたトークンアライメントレキシコンを学習することで語彙適応性能を向上させるTokAlign++という手法を導入する。
ソースとターゲットの語彙は2つの異なる言語として扱われ、バイリンガルトークンアライメントレキシコンはモノリンガルトークン表現から学習される。
モデルパラメータは、新しい語彙のためのこのバイリンガル辞書に従って再構成され、適応のために徐々に微調整される。
15言語での実験結果から,本手法は多言語テキスト圧縮率を向上し,バニラモデルの多言語能力の大部分を維持できることが示された。
バニラモデルの性能を回復するためには、わずか1Kステップの費用がかかる。
バニラモデルの語彙を統一した後、トークンレベルの蒸留は、235万のトークンしか持たないベースモデルを大幅に改善する。
関連論文リスト
- TokAlign: Efficient Vocabulary Adaptation via Token Alignment [41.59130966729569]
トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。
新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。
トークン共起ビューからLLMの語彙を置き換えるために,TokAlignという効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T03:15:57Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。
このデフォルトの選択は一般的に、特に英語以外の言語において、効率と言語能力の低下をもたらす。
入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models [100.29953199404905]
語彙重複の少ない言語間でのトークン共有を非強調化することにより,多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。
論文 参考訳(メタデータ) (2023-01-25T09:15:17Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。