論文の概要: Following the Teacher's Footsteps: Scheduled Checkpoint Distillation for Domain-Specific LLMs
- arxiv url: http://arxiv.org/abs/2601.10114v1
- Date: Thu, 15 Jan 2026 06:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.021347
- Title: Following the Teacher's Footsteps: Scheduled Checkpoint Distillation for Domain-Specific LLMs
- Title(参考訳): 教師の足跡をたどる:ドメイン特化LDMのスケジューリングチェックポイント蒸留
- Authors: Cheng Feng, Chaoliang Zhong, Jun Sun, Yusuke Oishi,
- Abstract要約: 大規模言語モデル(LLM)は、大規模であるため、ドメイン固有のタスクへのデプロイが困難である。
微調整LDMをより小さな学生モデルに蒸留することは有望な方法であるが、教師と生徒の間の容量ギャップは、しばしば最適以下のパフォーマンスをもたらす。
そこで,本研究では,学生が教師に有利なサブドメインの方が,教師に有利なサブドメインよりも優れているという,新たな理論的洞察を提案する。
- 参考スコア(独自算出の注目度): 5.786917616876281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are challenging to deploy for domain-specific tasks due to their massive scale. While distilling a fine-tuned LLM into a smaller student model is a promising alternative, the capacity gap between teacher and student often leads to suboptimal performance. This raises a key question: when and how can a student model match or even surpass its teacher on domain-specific tasks? In this work, we propose a novel theoretical insight: a student can outperform its teacher if its advantage on a Student-Favored Subdomain (SFS) outweighs its deficit on the Teacher-Favored Subdomain (TFS). Guided by this insight, we propose Scheduled Checkpoint Distillation (SCD), which reduces the TFS deficit by emulating the teacher's convergence process during supervised fine-tuning (SFT) on the domain task, and a sample-wise Adaptive Weighting (AW) mechanism to preserve student strengths on SFS. Experiments across diverse domain tasks--including QA, NER, and text classification in multiple languages--show that our method consistently outperforms existing distillation approaches, allowing the student model to match or even exceed the performance of its fine-tuned teacher.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模であるため、ドメイン固有のタスクへのデプロイが困難である。
微調整LDMをより小さな学生モデルに蒸留することは有望な方法であるが、教師と生徒の間の容量ギャップは、しばしば最適以下のパフォーマンスをもたらす。
学生モデルはいつ、どのようにしてドメイン固有のタスクで教師にマッチするか、さらに上回ることができるのか?
本研究は,学生が学生好意サブドメイン(SFS)に有利な場合,教師好意サブドメイン(TFS)に欠点がある場合,生徒は教師より優れる,という新たな理論的知見を提案する。
そこで本研究では,教師の指導的微調整(SFT)における収束過程をエミュレートし,TFSの障害を軽減するためのスケジューリングチェックポイント蒸留(SCD)と,SFS上での生徒の強度を維持するためのサンプルワイド適応重み付け(AW)機構を提案する。
複数の言語におけるQA, NER, テキスト分類を含む多種多様なドメインタスクを対象とした実験により, 本手法が既存の蒸留手法を一貫して上回り, 学生モデルが微調整された教師のパフォーマンスに適合したり、超えたりできることを示した。
関連論文リスト
- DistillFSS: Synthesizing Few-Shot Knowledge into a Lightweight Segmentation Model [8.487765630753048]
Cross-Domain Few-Shot Semantics (CD-FSS) は未知のクラスを未知の領域に分割する。
モデルパラメータに直接サポートセットの知識を組み込むフレームワークであるDistillFSSを提案する。
学生ネットワーク内の専用レイヤに数ショットの推論を内部化することにより、DistillFSSはテスト時にイメージをサポートする必要をなくすことができる。
論文 参考訳(メタデータ) (2025-12-05T10:54:23Z) - Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom [0.6897286554827872]
知識蒸留(KD)は、Large Language Models (LLM) のサイズを減らすためのアプローチの1つである。
ドメイン固有のタスクについては、教師または学生モデル、または両方がドメイン適応のために考慮されなければならないかどうかが明確でない。
蒸留モデルにおける語彙(母と異なる)とKDアルゴリズム(Vanilla KD, Dual Space KD, DSKD)の影響を検討する実験を設計した。
論文 参考訳(メタデータ) (2025-04-28T17:19:25Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic
Distillation Generalization [36.338614215561805]
タスクに依存しない知識蒸留は、リソース制約のあるシナリオにおいて、大きな事前訓練された言語モデルをデプロイする問題に対処しようとする。
我々は,タスク非依存蒸留におけるマルチタスク学習を活用して,結果の一般化を推し進めることができることを示す。
論文 参考訳(メタデータ) (2023-01-09T15:12:50Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。