論文の概要: Teaching Old Tokenizers New Words: Efficient Tokenizer Adaptation for Pre-trained Models
- arxiv url: http://arxiv.org/abs/2512.03989v1
- Date: Wed, 03 Dec 2025 17:20:16 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:07:52.136376
- Title: Teaching Old Tokenizers New Words: Efficient Tokenizer Adaptation for Pre-trained Models
- Title(参考訳): 古トケナイザーに新しい単語を教える:事前学習モデルに対する効率的なトケナイザー適応
- Authors: Taido Purason, Pavel Chizhov, Ivan P. Yamshchikov, Mark Fishel,
- Abstract要約: トケナイザ適応は、訓練済みの言語モデルを新しいドメインや言語に移行する際に重要な役割を果たす。
拡張のための一般的なアプローチは、ドメイン固有のテキストに新しいトークンをトレーニングし、既存の語彙と重複しないトークンを追加する。
我々は,BPEマージ学習プロセスの継続を新たなデータ上で行うことにより,事前学習されたトークン化装置を適応させる,BPEトレーニングの継続を提案する。
- 参考スコア(独自算出の注目度): 12.218365713546214
- License:
- Abstract: Tokenizer adaptation plays an important role in transferring pre-trained language models to new domains or languages. In this work, we address two complementary aspects of this process: vocabulary extension and pruning. The common approach to extension trains a new tokenizer on domain-specific text and appends the tokens that do not overlap with the existing vocabulary, which often results in many tokens that are unreachable or never used. We propose continued BPE training, which adapts a pre-trained tokenizer by continuing the BPE merge learning process on new data. Experiments across multiple languages and model families show that this approach improves tokenization efficiency and leads to better utilization of added vocabulary. We also introduce leaf-based vocabulary pruning, which removes redundant tokens while preserving model quality. Together, these methods provide practical tools for controlled vocabulary modification, which we release as an open-source package.
- Abstract(参考訳): トケナイザ適応は、訓練済みの言語モデルを新しいドメインや言語に移行する際に重要な役割を果たす。
本研究では,このプロセスの相補的側面として,語彙拡張とプルーニングの2つに対処する。
拡張のための一般的なアプローチは、ドメイン固有のテキストに新しいトークンをトレーニングし、既存の語彙と重複しないトークンを追加する。
我々は,BPEマージ学習プロセスの継続を新たなデータ上で行うことにより,事前学習されたトークン化装置を適応させる,BPEトレーニングの継続を提案する。
複数の言語とモデルファミリにわたる実験により、このアプローチがトークン化効率を改善し、追加の語彙をより有効活用することを示した。
また、モデル品質を維持しながら冗長なトークンを除去する葉ベースのボキャブラリプルーニングも導入する。
これらの手法を併用して,オープンソースパッケージとしてリリースした語彙変更制御のための実用的なツールを提供する。
関連論文リスト
- HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - Scaling LLM Pre-training with Vocabulary Curriculum [0.0]
本稿では,語彙サイズに対して,対数線形スケーリングゲインによる事前学習効率を向上させる手法である語彙カリキュラム学習を導入する。
提案手法は,エントロピー誘導語彙拡張とモデル最適化を交互に行い,多様なトークン化粒度にまたがる変換可能な表現を学習する。
小規模GPTモデルによる実験により,スケーリング効率が向上し,動的トークン化の有効性が向上した。
論文 参考訳(メタデータ) (2025-02-25T07:18:29Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Evolving Dictionary Representation for Few-shot Class-incremental
Learning [34.887690018011675]
数発クラス増分学習(FSCIL)という,挑戦的で実践的な連続学習シナリオに取り組む。
FSCILでは、ラベル付きデータはベースセッションでクラスに対して与えられるが、新しいインクリメンタルクラスでは非常に限定されたラベル付きインスタンスが利用できる。
本稿では,辞書学習と視覚表現学習を組み合わせたハイブリッド学習アーキテクチャであるディープ辞書学習を提案する。
論文 参考訳(メタデータ) (2023-05-03T04:30:34Z) - Semantic Tokenizer for Enhanced Natural Language Processing [32.605667552915854]
本稿では,セマンティクスを用いて語彙構成を行う新しいトークン化手法を提案する。
トークン化子は、語彙で表されるワードフォームの数を2倍以上にする。
論文 参考訳(メタデータ) (2023-04-24T19:33:41Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。