論文の概要: Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization
- arxiv url: http://arxiv.org/abs/2605.17379v1
- Date: Sun, 17 May 2026 10:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.930622
- Title: Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization
- Title(参考訳): より良い知識でより速く学習する:特殊化テキスト要約のためのパラメータ効率の良い語彙適応
- Authors: Gunjan Balde, Soumyadeep Roy, Mainack Mondal, Niloy Ganguly,
- Abstract要約: 本稿では,語彙適応と事前学習を組み合わせたパラメータ効率の高いドメイン適応手法を提案する。
我々の統合フレームワークは、未学習のトークンと未取得のトークンを選択的に置き換えながら、事前訓練されたトークンをドメイン固有のトークンで拡張します。
Llama-3.1-8BとQwen2.5-7Bの法的および医学的要約タスクに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 31.777579240285963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models pretrained on general-domain corpora often exhibit tokenization inefficiencies when applied to specialized domains. Although continual pretraining for domain adaptation partially alleviate performance degradation, it does not resolve the fundamental vocabulary mismatch. To address this gap, we introduce a targeted parameter-efficient domain adaptation approach that combines vocabulary adaptation with pretraining for LLM-based text summarization. Our unified framework augments pretrained tokenizers with domain-specific tokens while selectively replacing under-trained and unreachable tokens to limit parameter growth. We evaluate our approach on Llama-3.1-8B and Qwen2.5-7B across legal and medical summarization tasks on a challenge-oriented evaluation protocol focused on expert-driven text and summaries which typically has higher concentration of over-fragmented Out-of-Vocabulary (OOV) words. The vocabulary adaptation algorithm enhances the overall quality of the summarization model by improving semantic similarity between the generated summaries and their references. In addition, the adapted model produces summaries that incorporate more appropriate novel and domain-specific words, leading to improved coherence, relevance, and faithfulness. We further observe that our proposed approach significantly reduce training time by $35-55\%$ over continual pretraining and reduce parameter counts up to $37\%$ w.r.t expansion-only methods. We make the codebase publicly available at https://github.com/gb-kgp/VocabReplace-Then-Expand.
- Abstract(参考訳): 一般ドメインコーパスで事前訓練された大規模言語モデルは、特殊ドメインに適用した場合、トークン化の非効率性を示すことが多い。
ドメイン適応のための継続事前訓練は性能劣化を部分的に緩和するが、基本語彙ミスマッチは解決しない。
このギャップに対処するために,語彙適応と事前学習を組み合わせたパラメータ効率の高いドメイン適応手法を提案する。
我々の統合フレームワークは、未学習のトークンと未取得のトークンを選択的に置き換え、パラメータ成長を制限することで、事前訓練されたトークンを拡張します。
Llama-3.1-8B と Qwen2.5-7B に対する我々のアプローチを、専門家主導のテキストと要約に焦点をあてた挑戦指向評価プロトコルを用いて、法的および医学的要約タスクにまたがって評価した。
語彙適応アルゴリズムは、生成された要約とその参照間の意味的類似性を改善することにより、要約モデルの全体的な品質を向上させる。
さらに、適応モデルはより適切な小説やドメイン固有の単語を含む要約を生成し、コヒーレンス、関連性、忠実性を向上させる。
さらに,本提案手法は,継続事前学習よりもトレーニング時間を35~55ドル削減し,パラメータ数を最大37~5ドル削減する。
コードベースはhttps://github.com/gb-kgp/VocabReplace-Then-Expandで公開しています。
関連論文リスト
- AdaptBPE: From General Purpose to Specialized Tokenizers [18.70903226766322]
適応コーパスの周波数に基づいて,低ユーティリティトークンをより関連性の高いトークンに選択的に置き換えるポストトレーニング適応戦略を提案する。
提案アルゴリズムは,目的語彙の適応コーパスを最も効果的に符号化したトークンの在庫を特定する。
この方法は、語彙の微調整プロセスに似た軽量な適応機構として機能し、特定のドメインやタスクに対して最適化されたトークン化を可能にする。
論文 参考訳(メタデータ) (2026-01-29T12:59:40Z) - Vocabulary Customization for Efficient Domain-Specific LLM Deployment [7.455386813746299]
一般ドメイントークン化器は頻繁にドメイン固有の用語をキャプチャできず、トークンの肥大化と処理速度の低下につながる。
この制限には、事前訓練された語彙をドメイン固有のトークンセットで拡張することで対処する。
実世界のeコマースのユースケースで評価すると、拡張トークン化器は入力シーケンスを最大20%短縮する。
論文 参考訳(メタデータ) (2025-09-30T11:43:12Z) - Lost in Translation? Vocabulary Alignment for Source-Free Adaptation in Open-Vocabulary Semantic Segmentation [90.5844979560448]
VocAlignは、セマンティックセグメンテーションにおいてVLM用に特別に設計された、ソースフリーのドメイン適応フレームワークである。
提案手法は,CityScapesデータセットの6.11mIoU改善を実現し,ゼロショットセグメンテーションベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-18T17:59:58Z) - RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation [78.01030342481246]
RecBaseは、レコメンデーション指向の目的によって事前訓練されたドメインに依存しない基礎モデルである。
アイテムを階層的な概念識別子にエンコードする統一されたアイテムトークンを導入します。
我々のモデルは、ゼロショットおよびクロスドメインレコメンデーションタスクにおいて、LLMのベースラインの最大7Bパラメータのパフォーマンスを一致または超過します。
論文 参考訳(メタデータ) (2025-09-03T08:33:43Z) - Adaptive BPE Tokenization for Enhanced Vocabulary Adaptation in Finetuning Pretrained Language Models [26.442558912559658]
Byte-Pair を用いた語彙適応手法の基本的な限界を示す。
(BPE)エキスパートドメインへの微調整事前学習言語モデル(PLM)のトークン化方式。
本稿では,BPEのトークン化フェーズが変更され,文字レベルでのトークン化の前に,付加(ターゲット)語彙上で最も長い文字列マッチングが実行されるAdaptBPEを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:24:55Z) - Improving Domain Adaptation through Extended-Text Reading Comprehension [108.24709810480654]
最近の研究は、適応型パターンによってフォーマットされた理解データを読み取るモデルが、ドメイン固有のタスクのパフォーマンスを大幅に改善できることを実証している。
しかし、これらのパターンはドメイン固有の知識を用いて生のコーパスを解析することができない。
AdaptLLMと比較して、ドメイン固有のタスクで5%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-01-14T13:11:31Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。