論文の概要: AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation
- arxiv url: http://arxiv.org/abs/2503.19693v1
- Date: Tue, 25 Mar 2025 14:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:09.343083
- Title: AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation
- Title(参考訳): AdaptiVocab:軽量語彙適応による焦点領域におけるLLM効率の向上
- Authors: Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart,
- Abstract要約: AdaptiVocabは語彙適応のためのエンドツーエンドのアプローチである。
トークンをドメイン固有のn-gramベースのトークンに置き換えることで、語彙を修飾する。
以上の結果から,AdaptiVocabは性能を損なうことなくトークン使用量を25%以上削減できることがわかった。
- 参考スコア(独自算出の注目度): 21.71269358186483
- License:
- Abstract: Large Language Models (LLMs) have shown impressive versatility as general purpose models. However, their broad applicability comes at a high-cost computational overhead, particularly in auto-regressive decoding where each step requires a forward pass. In domain-specific settings, general-purpose capabilities are unnecessary and can be exchanged for efficiency. In this work, we take a novel perspective on domain adaptation, reducing latency and computational costs by adapting the vocabulary to focused domains of interest. We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation, designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be applied to any tokenizer and architecture, modifying the vocabulary by replacing tokens with domain-specific n-gram-based tokens, thereby reducing the number of tokens required for both input processing and output generation. AdaptiVocab initializes new n-token embeddings using an exponentially weighted combination of existing embeddings and employs a lightweight fine-tuning phase that can be efficiently performed on a single GPU. We evaluate two 7B LLMs across three niche domains, assessing efficiency, generation quality, and end-task performance. Our results show that AdaptiVocab reduces token usage by over 25% without compromising performance
- Abstract(参考訳): 大きな言語モデル(LLM)は汎用モデルとして印象的な汎用性を示している。
しかし、その幅広い適用性は、特に各ステップがフォワードパスを必要とする自動回帰デコーディングにおいて、高速な計算オーバーヘッドを伴っている。
ドメイン固有の設定では、汎用機能は不要であり、効率のために交換できる。
本研究では,専門分野の専門領域に語彙を適応させることにより,ドメイン適応,レイテンシ,計算コストの削減という新たな視点を採る。
本稿では,低リソース領域におけるLLM効率を向上させるために,語彙適応のためのエンドツーエンドアプローチであるAdaptiVocabを紹介する。
AdaptiVocabは任意のトークン化やアーキテクチャに適用することができ、トークンをドメイン固有のn-gramベースのトークンに置き換えることで語彙を変更することで、入力処理と出力生成の両方に必要なトークンの数を削減できる。
AdaptiVocabは、既存の埋め込みの指数的に重み付けされた組み合わせを使用して、新しいn-token埋め込みを初期化し、単一のGPUで効率的に実行できる軽量な微調整フェーズを使用する。
3つのニッチドメインにまたがる2つの7B LLMを評価し、効率、生成品質、エンドタスク性能を評価した。
以上の結果から,AdaptiVocabは性能を損なうことなくトークン使用量を25%以上削減できることがわかった。
関連論文リスト
- Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling [10.985444895887207]
本稿では,言語モデリング性能を向上させるために,入力語彙と出力語彙を分離するフレームワークであるOver-Tokenized Transformersを紹介する。
入力語彙サイズとトレーニング損失の関係を明らかにすることで,より大きな入力語彙がモデル性能を継続的に向上することを示す。
本研究は, スケーリング法則におけるトークン化の重要性を強調し, トークン化設計の実践的洞察を提供するものである。
論文 参考訳(メタデータ) (2025-01-28T14:15:42Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models [32.6661928486072]
ATP-LLaVAは、大規模言語モデル層ごとにインスタンス固有のトークンプルーニング比を適応的に決定する新しいアプローチである。
提案手法は,7つの広く使用されているベンチマークにおいて,最小1.9%の劣化しかなく,パフォーマンスを維持しながら平均トークン数を75%削減する。
論文 参考訳(メタデータ) (2024-11-30T11:42:35Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Adversarial Adaptation for French Named Entity Recognition [21.036698406367115]
類似の領域や一般コーパスに対する逆適応を用いたトランスフォーマーに基づくフランス語NERアプローチを提案する。
我々のアプローチでは、同じドメインや混合ドメインから大規模にラベル付けされていないコーパスを使って、より良い機能を学ぶことができます。
また, 大規模未ラベルコーパスに対する逆適応は, より小さなコーパスで事前学習したTransformerモデルを用いて, 性能低下を軽減できることを示す。
論文 参考訳(メタデータ) (2023-01-12T18:58:36Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。