論文の概要: Vocab Diet: Reshaping the Vocabulary of LLMs with Vector Arithmetic
- arxiv url: http://arxiv.org/abs/2510.17001v1
- Date: Sun, 19 Oct 2025 20:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.929415
- Title: Vocab Diet: Reshaping the Vocabulary of LLMs with Vector Arithmetic
- Title(参考訳): Vocab Diet: ベクター・アリストメティクスによるLDMの語彙の再構築
- Authors: Yuval Reif, Guy Kaplan, Roy Schwartz,
- Abstract要約: 大型言語モデル (LLM) は「ウォーク」>「ウォーク」のような単語形式のバリエーションを埋め込み空間における線形方向としてエンコードする。
標準的なトークン化アルゴリズムは、これらのバリエーションを異なるトークンとして扱う。
本稿では,各面形状に一意なトークンを割り当てるのではなく,共有基底形状と変換ベクトルから構成する,語彙のコンパクトな再構成を提案する。
- 参考スコア(独自算出の注目度): 9.273273023595065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) were shown to encode word form variations, such as "walk"->"walked", as linear directions in embedding space. However, standard tokenization algorithms treat these variations as distinct tokens -- filling the size-capped vocabulary with surface form variants (e.g., "walk", "walking", "Walk"), at the expense of less frequent words and multilingual coverage. We show that many of these variations can be captured by transformation vectors -- additive offsets that yield the appropriate word's representation when applied to the base form word embedding -- in both the input and output spaces. Building on this, we propose a compact reshaping of the vocabulary: rather than assigning unique tokens to each surface form, we compose them from shared base form and transformation vectors (e.g., "walked" = "walk" + past tense). We apply our approach to multiple LLMs and across five languages, removing up to 10% of vocabulary entries -- thereby freeing space to allocate new, more diverse tokens. Importantly, we do so while also expanding vocabulary coverage to out-of-vocabulary words, with minimal impact on downstream performance, and without modifying model weights. Our findings motivate a foundational rethinking of vocabulary design, moving from string enumeration to a compositional vocabulary that leverages the underlying structure of language.
- Abstract(参考訳): 大規模言語モデル(LLM)は、埋め込み空間における線形方向として「ウォーク」->「ウォーク」のような単語形態のバリエーションを符号化することを示した。
しかし、標準的なトークン化アルゴリズムは、これらのバリエーションを異なるトークンとして扱う - あまり頻度の低い単語と多言語のカバレッジを犠牲にして、サイズを冠した語彙に表面的な形の変化(例えば、"walk", "walking", "Walk")を埋める。
これらのバリエーションの多くは、入力空間と出力空間の両方において、変換ベクトル、つまり、ベースフォーム単語の埋め込みに適用した場合に適切な単語の表現をもたらす付加オフセットによってキャプチャできることを示す。
これに基づいて、各曲面にユニークなトークンを割り当てる代わりに、共有基底形式と変換ベクトル(例えば、"walked" = "walk" + past tense)からそれらを構成する。
このアプローチを複数のLLMと5つの言語に適用し、最大10%の語彙エントリを削除します。
重要なことは、ボキャブラリのカバー範囲を語彙外語にまで広げる一方で、下流のパフォーマンスへの影響を最小限に抑えながら、モデルの重みを変更しないことです。
本研究は,文字列列挙から基本言語構造を活用する構成語彙へ移行し,語彙設計の基礎的再考を動機づけるものである。
関連論文リスト
- See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - From Tokens to Words: On the Inner Lexicon of LLMs [7.148628740938674]
自然言語は単語で構成されているが、現代の大言語モデル(LLM)はサブワードを入力として処理する。
サブワード列をコヒーレントな全単語表現に結合する本質的なデトケン化過程にLLMが関与する証拠を提示する。
以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T09:53:35Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Supervised Understanding of Word Embeddings [1.160208922584163]
単語埋め込みにおける線形キーワードレベル分類器の形で教師付きプロジェクションを得た。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
論文 参考訳(メタデータ) (2020-06-23T20:13:42Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。