論文の概要: TokAlign: Efficient Vocabulary Adaptation via Token Alignment
- arxiv url: http://arxiv.org/abs/2506.03523v1
- Date: Wed, 04 Jun 2025 03:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.126127
- Title: TokAlign: Efficient Vocabulary Adaptation via Token Alignment
- Title(参考訳): TokAlign: トークンアライメントによる効率的な語彙適応
- Authors: Chong Li, Jiajun Zhang, Chengqing Zong,
- Abstract要約: トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。
新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。
トークン共起ビューからLLMの語彙を置き換えるために,TokAlignという効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 41.59130966729569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization serves as a foundational step for Large Language Models (LLMs) to process text. In new domains or languages, the inefficiency of the tokenizer will slow down the training and generation of LLM. The mismatch in vocabulary also hinders deep knowledge transfer between LLMs like token-level distillation. To mitigate this gap, we propose an efficient method named TokAlign to replace the vocabulary of LLM from the token co-occurrences view, and further transfer the token-level knowledge between models. It first aligns the source vocabulary to the target one by learning a one-to-one mapping matrix for token IDs. Model parameters, including embeddings, are rearranged and progressively fine-tuned for the new vocabulary. Our method significantly improves multilingual text compression rates and vocabulary initialization for LLMs, decreasing the perplexity from 3.4$\text{e}^2$ of strong baseline methods to 1.2$\text{e}^2$ after initialization. Experimental results on models across multiple parameter scales demonstrate the effectiveness and generalization of TokAlign, which costs as few as 5k steps to restore the performance of the vanilla model. After unifying vocabularies between LLMs, token-level distillation can remarkably boost (+4.4% than sentence-level distillation) the base model, costing only 235M tokens.
- Abstract(参考訳): トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。
新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。
語彙のミスマッチは、トークンレベルの蒸留のようなLLM間の深い知識伝達を妨げる。
このギャップを軽減するために,トークン共起ビューからLLMの語彙を置き換えるTokAlignという効率的な手法を提案し,さらにトークンレベルの知識をモデル間で伝達する。
まず、トークンIDの1対1マッピング行列を学習することで、ソース語彙をターゲット語に整列させる。
埋め込みを含むモデルパラメータは、新しい語彙のために再配列され、徐々に微調整される。
提案手法は, LLMの多言語テキスト圧縮率と語彙初期化を著しく改善し, 強ベースライン法3.4$\text{e}^2$から初期化後の1.2$\text{e}^2$へと難易度を下げる。
複数のパラメータスケールにまたがるモデルに対する実験結果から,バニラモデルの性能回復に要するコストは5kに満たないTokAlignの有効性と一般化が示された。
LLM間の語彙を統一すると、トークンレベルの蒸留はベースモデルを大幅に増加させ(文レベルの蒸留よりも4.4%)、トークンのコストはわずか235万である。
関連論文リスト
- Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。
我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。
本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:48:15Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
重要なアルゴリズム設計選択が下流モデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs [10.213016513358598]
Token Prepending (TP) 技術は、各レイヤのデコードされた文を次のレイヤの入力に埋め込む。
TP技術はプラグアンドプレイおよびトレーニングフリー技術であり、即時ベースの文埋め込み手法とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-16T08:42:00Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
動的トークン化による現在の言語モデルの再適合を提案する。
バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。
動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。