論文の概要: KL-based self-distillation for large language models
- arxiv url: http://arxiv.org/abs/2508.15807v1
- Date: Thu, 14 Aug 2025 15:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.550724
- Title: KL-based self-distillation for large language models
- Title(参考訳): 大規模言語モデルのためのKLに基づく自己蒸留
- Authors: Max Rehman Linder,
- Abstract要約: 我々はKLの発散による知識蒸留の数学的基礎化手法を提案する。
これにより、生徒モデルは、異なる語彙にもかかわらず、教師から分布的知識を継承することができる。
我々は,KLを用いた蒸留法と従来のクロスエントロピートレーニングを比較し,新しいトークン埋め込みを初期化する手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained language models often struggle to incorporate new domain-specific terminology when fine-tuned on small, specialized corpora. In this work, we address the challenge of vocabulary expansion in frozen LLMs by introducing a mathematically grounded method for knowledge distillation via KL divergence, even when the original and extended models use different tokenizations. This allows the student model to inherit distributional knowledge from the teacher despite differing vocabularies. We compare our KL-based distillation approach to conventional cross-entropy training, evaluating both methods across multiple strategies for initializing new token embeddings. After embedding initialization, models are further fine-tuned to integrate the new vocabulary. Each trained model is benchmarked on approximately 2000 code-generation tasks, where our approach achieves the best performance across the board. Finally, through mechanistic interpretability, we analyze how models learn representations for the new tokens, providing an explanation for the observed gains and offering insight into the structure of embedding space during vocabulary expansion.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、小さな特殊なコーパスで微調整された場合、しばしば新しいドメイン固有の用語を組み込むのに苦労する。
そこで本研究では,KL の発散による知識蒸留を数学的に基礎とした手法を導入することにより,凍結 LLM における語彙展開の課題に対処する。
これにより、生徒モデルは、異なる語彙にもかかわらず、教師から分布的知識を継承することができる。
我々は,KLを用いた蒸留法を従来のクロスエントロピートレーニングと比較し,新しいトークン埋め込みを初期化するための複数の手法を検討した。
初期化を埋め込んだ後、新しい語彙を統合するためにモデルはさらに微調整される。
トレーニングされた各モデルは、約2000のコード生成タスクでベンチマークされます。
最後に,機械的解釈可能性を用いて,新しいトークンの表現をモデルがどのように学習するかを解析し,観測された利得について説明し,語彙展開中の埋め込み空間の構造に関する洞察を提供する。
関連論文リスト
- Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Scaling LLM Pre-training with Vocabulary Curriculum [0.0]
本稿では,語彙サイズに対して,対数線形スケーリングゲインによる事前学習効率を向上させる手法である語彙カリキュラム学習を導入する。
提案手法は,エントロピー誘導語彙拡張とモデル最適化を交互に行い,多様なトークン化粒度にまたがる変換可能な表現を学習する。
小規模GPTモデルによる実験により,スケーリング効率が向上し,動的トークン化の有効性が向上した。
論文 参考訳(メタデータ) (2025-02-25T07:18:29Z) - The more polypersonal the better -- a short look on space geometry of fine-tuned layers [0.0]
我々は、追加の文法モジュールで訓練されたBERTモデルの内部表現の変化を分析する。
単一の文法層を追加することで、モデルが新しい文法層と古い文法層をその内部で分離することを発見した。
論文 参考訳(メタデータ) (2025-01-09T18:50:47Z) - Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - A Sentence Speaks a Thousand Images: Domain Generalization through
Distilling CLIP with Language Guidance [41.793995960478355]
大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。
鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。
提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-21T23:06:19Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。