論文の概要: Defragmenting Language Models: An Interpretability-based Approach for Vocabulary Expansion
- arxiv url: http://arxiv.org/abs/2604.16656v1
- Date: Fri, 17 Apr 2026 19:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.119458
- Title: Defragmenting Language Models: An Interpretability-based Approach for Vocabulary Expansion
- Title(参考訳): 言語モデルのデフラグメント:語彙拡張のための解釈可能性に基づくアプローチ
- Authors: Maitrey Mehta, Nishant Subramani, Zhichao Xu, Ashim Gupta, Vivek Srikumar,
- Abstract要約: 我々は,解釈可能性に基づく語彙展開,新たな研究方向について検討する。
解釈可能性に基づく手法は、優れた性能と高い効率のトレードオフをもたらすことを示す。
我々は、解釈可能性に基づく拡張の効率天井を押すためにFragMendを提案する。
- 参考スコア(独自算出の注目度): 25.257834614765372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All languages are equal; when it comes to tokenization, some are more equal than others. Tokens are the hidden currency that dictate the cost and latency of access to contemporary LLMs. However, many languages written in non-Latin scripts observe a poor exchange rate: LLMs take several multiples of tokens to encode the same information in many languages as they do for English. Our analysis reveals that this issue, known as 'token over-fragmentation', persists in modern open-weight LLMs. The standard remedy is vocabulary expansion that adds target language items missing from the model's vocabulary. In this work, we comprehensively study and advance interpretability-based vocabulary expansion, a new research direction. We focus on two core decisions in the vocabulary expansion process: What items should we add? and How should we initialize their corresponding input and output embeddings? First, we question the conventional use of frequency-based methods to choose candidate vocabulary items to add (a decision long treated as settled), and show that interpretability-based methods offer a superior performance-token efficiency trade-off. Next, we strengthen the case for interpretability-based embedding initialization by showing large gains (~20 pts) over baseline initialization methods for several languages written in non-Latin scripts. We identify the phenomenon of "subword detokenization" where models progressively merge fragmented subword tokens into larger subwords across layers. Grounded in our analysis of this phenomenon, we propose FragMend to further push the efficiency ceiling of interpretability-based expansion. We validate the effectiveness of FragMend through comparison against strong baselines and we present extensive analysis of its design choices.
- Abstract(参考訳): すべての言語は等しく、トークン化に関しては、他の言語よりも同等であるものもある。
トークンは、現代のLLMへのアクセスのコストと遅延を規定する隠された通貨である。
しかし、非ラテン語のスクリプトで書かれた多くの言語は、交換率の低さを観察している。
我々の分析によると、この問題は'token over-fragmentation'と呼ばれ、現代のオープンウェイト LLM で継続している。
標準的な治療法は語彙拡張であり、モデルの語彙から欠落するターゲット言語項目を追加する。
本研究は,新たな研究方向である,解釈可能性に基づく語彙拡張を包括的に研究し,進展させるものである。
語彙拡張プロセスにおける2つの中核的な決定に焦点をあてる。
インプットとアウトプットの埋め込みをどのように初期化するべきか?
まず, 従来の周波数ベース手法を用いて, 単語を候補として選択する手法に疑問を呈し, 解釈可能性に基づく手法が優れた性能と効率のトレードオフをもたらすことを示す。
次に、非ラテン文字で書かれた複数の言語に対するベースライン初期化手法よりも大きな利得(約20 pts)を示すことにより、解釈可能性に基づく埋め込み初期化のケースを強化する。
分割されたサブワードトークンを層横断のより大きなサブワードに段階的にマージする「サブワード・デトケン化」現象を同定する。
この現象を解析した結果,FragMendは解釈可能性に基づく拡張の効率天井をさらに推し進めるために提案される。
我々は,FragMend の有効性を,強いベースラインとの比較により検証し,その設計選択を広範囲に分析する。
関連論文リスト
- HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [34.57680190813489]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文 参考訳(メタデータ) (2024-06-17T12:42:34Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。