論文の概要: Vocabulary Customization for Efficient Domain-Specific LLM Deployment
- arxiv url: http://arxiv.org/abs/2509.26124v1
- Date: Tue, 30 Sep 2025 11:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.117847
- Title: Vocabulary Customization for Efficient Domain-Specific LLM Deployment
- Title(参考訳): ドメイン特化LDMの効率的な展開のための語彙のカスタマイズ
- Authors: Christian Herold, Michael Kozielski, Nicholas Santavas, Yannick Versley, Shahram Khadivi,
- Abstract要約: 一般ドメイントークン化器は頻繁にドメイン固有の用語をキャプチャできず、トークンの肥大化と処理速度の低下につながる。
この制限には、事前訓練された語彙をドメイン固有のトークンセットで拡張することで対処する。
実世界のeコマースのユースケースで評価すると、拡張トークン化器は入力シーケンスを最大20%短縮する。
- 参考スコア(独自算出の注目度): 7.455386813746299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When using an LLM to process text outside the training domain(s), an often overlooked factor is vocabulary mismatch, where the general-domain tokenizer fails to capture frequent domain-specific terms, leading to higher token fertility and thus a decrease in processing speed due to suboptimal sub-word splits. We address this limitation by augmenting the pretrained vocabulary with a set of domain-specific tokens. To this end, we design an algorithm that extends an existing tokenizer while guaranteeing it never decreases tokenization efficiency: every input sequence is segmented into at most the same number of tokens as before. Evaluated on real-world e-Commerce use-cases, the augmented tokenizer significantly shortens input sequences by up to 20% and reduces inference latency on downstream tasks while preserving predictive quality. We further analyze secondary effects, such as the impact on forward pass speed and the rate at which the model adopts the newly introduced tokens, to illustrate the broader benefits of vocabulary adaptation.
- Abstract(参考訳): LLMを使用してトレーニングドメインの外でテキストを処理する場合、しばしば見過ごされる要因は語彙ミスマッチ(vocabulary mismatch)である。
この制限には、事前訓練された語彙をドメイン固有のトークンセットで拡張することで対処する。
この目的のために,既存のトークン化アルゴリズムを拡張するアルゴリズムを設計し,トークン化効率を低下させないことを保証した。
実世界のeコマースのユースケースで評価すると、拡張トークンーは入力シーケンスを最大20%短縮し、予測品質を維持しながら下流タスクの推論遅延を低減する。
さらに, 前方通過速度への影響や, 新たに導入されたトークンをモデルが採用する速度などの二次効果を分析し, 語彙適応のより広い利点を示す。
関連論文リスト
- Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning [0.0]
事前訓練された言語モデル(LLM)は固定トークン化方式によって制約されることが多い。
Tokenadaptは、モデルに依存しないトークン化剤の移植方法である。
本フレームワークでは, モデルに依存しないトークン化剤の移植法であるTokenadaptと, マルチワードスーパートークンの新規プリトークン化の2つの革新を紹介した。
論文 参考訳(メタデータ) (2025-05-14T19:00:27Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Boundless Byte Pair Encoding: Breaking the Pre-tokenization Barrier [4.300681074103876]
事前トークン化は、コーパス内のトークンの分布を一般的なフル長の単語に歪ませる原因となる。
本研究では,境界制約を緩和する改良型BPEアルゴリズムであるBoundlessBを提案する。
我々のアプローチは、2つの完全プレトケンを選択的にスーパーワードと呼ぶより大きな単位にマージする。
論文 参考訳(メタデータ) (2025-03-31T19:36:29Z) - AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation [21.71269358186483]
AdaptiVocabは語彙適応のためのエンドツーエンドのアプローチである。
トークンをドメイン固有のn-gramベースのトークンに置き換えることで、語彙を修飾する。
以上の結果から,AdaptiVocabは性能を損なうことなくトークン使用量を25%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-25T14:18:21Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Improving Tokenisation by Alternative Treatment of Spaces [7.596737214110957]
空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。
修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T13:22:30Z) - Domain Adversarial Fine-Tuning as an Effective Regularizer [80.14528207465412]
自然言語処理(NLP)では、下流タスクに転送される事前訓練された言語モデル(LM)が、最先端の結果を得るために最近示されている。
標準的な微調整は、事前トレーニング中にキャプチャされた汎用ドメイン表現を分解することができる。
本稿では,新しい正規化手法である After; 有効正規化器としてのドメイン・アダクショナル・ファイン・チューニングを提案する。
論文 参考訳(メタデータ) (2020-09-28T14:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。