論文の概要: AdaptBPE: From General Purpose to Specialized Tokenizers
- arxiv url: http://arxiv.org/abs/2601.21665v1
- Date: Thu, 29 Jan 2026 12:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.829837
- Title: AdaptBPE: From General Purpose to Specialized Tokenizers
- Title(参考訳): AdaptBPE: 一般目的から特化トークンメーカーへ
- Authors: Vijini Liyanage, François Yvon,
- Abstract要約: 適応コーパスの周波数に基づいて,低ユーティリティトークンをより関連性の高いトークンに選択的に置き換えるポストトレーニング適応戦略を提案する。
提案アルゴリズムは,目的語彙の適応コーパスを最も効果的に符号化したトークンの在庫を特定する。
この方法は、語彙の微調整プロセスに似た軽量な適応機構として機能し、特定のドメインやタスクに対して最適化されたトークン化を可能にする。
- 参考スコア(独自算出の注目度): 18.70903226766322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization methods, such as Byte-Pair Encoding (BPE), significantly impact the performance and efficiency of large language models (LLMs). The standard approach involves training a general-purpose tokenizer that uniformly processes all textual data during both training and inference. However, the use of a generic set of tokens can incur inefficiencies when applying the model to specific domains or languages. To address this limitation, we propose a post-training adaptation strategy that selectively replaces low-utility tokens with more relevant ones based on their frequency in an adaptation corpus. Our algorithm identifies the token inventory that most effectively encodes the adaptation corpus for a given target vocabulary size. Extensive experiments on generation and classification tasks across multiple languages demonstrate that our adapted tokenizers compress test corpora more effectively than baselines using the same vocabulary size. This method serves as a lightweight adaptation mechanism, akin to a vocabulary fine-tuning process, enabling optimized tokenization for specific domains or tasks. Our code and data are available at https://github.com/vijini/Adapt-BPE.git.
- Abstract(参考訳): Byte-Pair Encoding (BPE)のようなサブワードのトークン化手法は、大きな言語モデル(LLM)の性能と効率に大きな影響を与えている。
標準的なアプローチでは、トレーニングと推論の両方の間、すべてのテキストデータを均一に処理する汎用トークンライザをトレーニングする。
しかし、一般的なトークンセットを使用することは、特定のドメインや言語にモデルを適用した場合、非効率性を引き起こす可能性がある。
この制限に対処するため,適応コーパスの周波数に基づいて,低ユーティリティトークンをより関連性の高いトークンに選択的に置き換えるポストトレーニング適応戦略を提案する。
提案アルゴリズムは,目的語彙の適応コーパスを最も効果的に符号化したトークン在庫を同定する。
複数の言語にまたがるタスクの生成と分類に関する広範な実験により、適応型トークン化器は、同じ語彙サイズでベースラインよりも効率的にテストコーパスを圧縮することを示した。
この方法は、語彙の微調整プロセスに似た軽量な適応機構として機能し、特定のドメインやタスクに対して最適化されたトークン化を可能にする。
私たちのコードとデータはhttps://github.com/vijini/Adapt-BPE.git.comで公開されています。
関連論文リスト
- HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [18.594241501479747]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
古典的Byte-pairを適用する前に, 形態素認識のセグメンテーションを事前学習のステップとして提案する。
音節ベースの書記システムに共通する係り受け母音を扱うために,制約付きBPE(CBPE)を提案する。
CBPEは従属母音を扱い、単一の単位として発生するのではなく、他の文字との結合単位を形成する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - SuperBPE: Space Travel for Language Models [103.09169510391972]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Adaptive BPE Tokenization for Enhanced Vocabulary Adaptation in Finetuning Pretrained Language Models [26.442558912559658]
Byte-Pair を用いた語彙適応手法の基本的な限界を示す。
(BPE)エキスパートドメインへの微調整事前学習言語モデル(PLM)のトークン化方式。
本稿では,BPEのトークン化フェーズが変更され,文字レベルでのトークン化の前に,付加(ターゲット)語彙上で最も長い文字列マッチングが実行されるAdaptBPEを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:24:55Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。