論文の概要: Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2604.02324v1
- Date: Thu, 02 Apr 2026 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.991721
- Title: Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation
- Title(参考訳): ジェネレーションレコメンデーションのためのLMにおける新しい語彙の接地トークン初期化
- Authors: Daiwei Chen, Zhoutong Fu, Chengming Jiang, Haichao Zhang, Ran Zhou, Tan Wang, Chunnan Yao, Guoyao Li, Rui Cai, Yihan Cao, Ruijie Jiang, Fedor Borisyuk, Jianqiang Shen, Jingwei Wu, Ramya Korlakai Vinayak,
- Abstract要約: 言語モデル(LM)は、ドメイン固有のタスクのための新しい学習可能な語彙トークンで拡張されつつある。
標準的な慣行は、これらの新しいトークンを既存の語彙埋め込みの手段として初期化し、それから教師付き微調整に頼って表現を学習する。
本論文は, 精密学習の前に, 予め訓練された埋め込み空間に新しいトークンを言語的に基礎付けることを目的とした, emphGrounded Token Initialization hypothesisを提案する。
- 参考スコア(独自算出の注目度): 15.12832019023085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are increasingly extended with new learnable vocabulary tokens for domain-specific tasks, such as Semantic-ID tokens in generative recommendation. The standard practice initializes these new tokens as the mean of existing vocabulary embeddings, then relies on supervised fine-tuning to learn their representations. We present a systematic analysis of this strategy: through spectral and geometric diagnostics, we show that mean initialization collapses all new tokens into a degenerate subspace, erasing inter-token distinctions that subsequent fine-tuning struggles to fully recover. These findings suggest that \emph{token initialization} is a key bottleneck when extending LMs with new vocabularies. Motivated by this diagnosis, we propose the \emph{Grounded Token Initialization Hypothesis}: linguistically grounding novel tokens in the pretrained embedding space before fine-tuning better enables the model to leverage its general-purpose knowledge for novel-token domains. We operationalize this hypothesis as GTI (Grounded Token Initialization), a lightweight grounding stage that, prior to fine-tuning, maps new tokens to distinct, semantically meaningful locations in the pretrained embedding space using only paired linguistic supervision. Despite its simplicity, GTI outperforms both mean initialization and existing auxiliary-task adaptation methods in the majority of evaluation settings across multiple generative recommendation benchmarks, including industry-scale and public datasets. Further analyses show that grounded embeddings produce richer inter-token structure that persists through fine-tuning, corroborating the hypothesis that initialization quality is a key bottleneck in vocabulary extension.
- Abstract(参考訳): 言語モデル(LM)は、ジェネレーティブレコメンデーションにおいてセマンティックIDトークンのようなドメイン固有のタスクのための新しい学習可能な語彙トークンで拡張されつつある。
標準的な慣行は、これらの新しいトークンを既存の語彙埋め込みの手段として初期化し、それから教師付き微調整に頼って表現を学習する。
スペクトルおよび幾何学的診断を通して、平均初期化によって全ての新しいトークンが縮退した部分空間に崩壊することを示し、その後の微調整が完全に回復する難しさを解消する。
これらの結果から,新しい語彙でLMを拡張する際には,emph{token initialization} が重要なボトルネックとなることが示唆された。
この診断に動機づけられた本論文では,前訓練された埋め込み空間に新しいトークンを言語的に基礎付けることによって,新しいドメインに対する汎用知識を活用できる,という仮説を提唱する。
我々は、この仮説をGTI(Grounded Token Initialization)として運用する。これは、微調整に先立って、ペア言語監督のみを用いて、事前訓練された埋め込み空間において、新しいトークンを意味的に意味のある明確な場所にマッピングする軽量な基盤ステージである。
その単純さにもかかわらず、GTIは業界規模や公開データセットを含む複数のジェネレーティブレコメンデーションベンチマークにおいて、評価設定の大部分において、平均初期化と既存の補助タスク適応手法の両方を上回ります。
さらなる分析により、接地埋め込みは、微調整によって持続するよりリッチなトケン構造を生み出し、初期化品質が語彙拡張の重要なボトルネックであるという仮説を裏付けている。
関連論文リスト
- LGSE: Lexically Grounded Subword Embedding Initialization for Low-Resource Language Adaptation [7.623227616015147]
本稿では,新しいトークンの埋め込みを初期化するための形態的情報セグメント化を導入したLexically Grounded Subword Embedding Initializationフレームワークを提案する。
ランダムなベクトルや任意のサブワードを使う代わりに、LGSEは単語を構成形態素に分解し、意味的に一貫性のある埋め込みを構成する。
質問応答、名前付きエンティティ認識、テキスト分類の3つのNLPタスクにおいて、LGSEを2つの形態的にリッチで低リソースな言語で評価する。
論文 参考訳(メタデータ) (2026-03-23T23:07:16Z) - Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs [20.946228883628013]
我々は,効率的な全空間予測を実現するために専用エンティティトークンを使用する新しいフレームワークKGTを提案する。
まず、専用エンティティトークンのレベルで特徴表現を構築するために、特殊トークン化を導入します。
次に、事前学習された構造的特徴とテキスト的特徴を、関係誘導ゲーティング機構を介して統合された埋め込みに融合する。
論文 参考訳(メタデータ) (2026-02-26T07:20:40Z) - Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である
CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。
実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2025-06-09T14:55:00Z) - Token Distillation: Attention-aware Input Embeddings For New Tokens [30.409194986834]
既存の埋め込み手法では、追加モジュールのさらなる訓練や事前訓練が必要とされる。
Token Distillationを提案し、元のトークン化を用いて得られた表現を蒸留することにより、新しいトークンに対する高品質な入力埋め込みを迅速に学習できることを示す。
論文 参考訳(メタデータ) (2025-05-26T15:35:29Z) - HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。