論文の概要: Model-Aware Tokenizer Transfer
- arxiv url: http://arxiv.org/abs/2510.21954v1
- Date: Fri, 24 Oct 2025 18:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.710969
- Title: Model-Aware Tokenizer Transfer
- Title(参考訳): モデル対応トケナイザ転送
- Authors: Mykola Haltiuk, Aleksander Smywiński-Pohl,
- Abstract要約: Model-Aware Tokenizer Transfer (MATT) は、モデル内部をトークン化プロセスに組み込む手法である。
MATTは、ソースモデルからターゲットモデルにトーケン間通信パターンを蒸留する注意影響モデリング(AIM)の目的を導入している。
実験の結果、MATTはオリジナルのモデルの性能のかなりの部分をGPU時間以内に回復し、ベースラインを上回った。
- 参考スコア(独自算出の注目度): 46.13517417540154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are trained to support an increasing number of languages, yet their predefined tokenizers remain a bottleneck for adapting models to lower-resource or distinct-script languages. Existing tokenizer transfer methods typically rely on semantic heuristics to initialize new embeddings, ignoring higher-layer model dynamics and limiting transfer quality. We propose Model-Aware Tokenizer Transfer (MATT), a method that incorporates model internals into the tokenizer transfer process. MATT introduces an Attention Influence Modeling (AIM) objective that distills inter-token communication patterns from a source model into a target model with a new tokenizer, providing an efficient warm-up before standard language modeling. Unlike approaches that focus solely on embedding similarity, MATT leverages attention behavior to guide embedding initialization and adaptation. Experiments across diverse linguistic settings show that MATT recovers a large fraction of the original model's performance within a few GPU hours, outperforming heuristic baselines. These results demonstrate that incorporating model-level signals offers a practical and effective path toward robust tokenizer transfer in multilingual LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、増加する言語をサポートするために訓練されているが、それらの事前定義されたトークン化器は、低リソースまたは別個のスクリプト言語にモデルを適応する際のボトルネックのままである。
既存のトークン化器転送法は、一般的に、新しい埋め込みを初期化するための意味的ヒューリスティックに依存し、高層モデルのダイナミクスを無視し、転送品質を制限する。
本稿では,モデル内部をトークン化処理に組み込む手法として,MATT(Model-Aware Tokenizer Transfer)を提案する。
MATTはAIM(アテンションインフルエンス・モデリング)の目的を導入し、ソースモデルから新しいトークン化器でターゲットモデルに相互通信パターンを蒸留し、標準言語モデリングの前に効率的なウォームアップを提供する。
埋め込み類似性のみに焦点を当てたアプローチとは異なり、MATTは注意行動を利用して埋め込み初期化と適応を導く。
多様な言語的設定による実験により、MATTは元のモデルの性能の大部分を数時間以内に回復し、ヒューリスティックなベースラインを上回る結果となった。
これらの結果から,多言語LLMにおけるロバストなトークン化器転送への実践的かつ効果的な経路をモデルレベル信号に組み込むことが示唆された。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。
BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。
本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文 参考訳(メタデータ) (2024-11-27T03:31:14Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。