論文の概要: An Empirical Study of Knowledge Distillation for Code Understanding Tasks
- arxiv url: http://arxiv.org/abs/2508.15423v1
- Date: Thu, 21 Aug 2025 10:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.278559
- Title: An Empirical Study of Knowledge Distillation for Code Understanding Tasks
- Title(参考訳): コード理解課題における知識蒸留の実証的研究
- Authors: Ruiqi Wang, Zezhou Yang, Cuiyun Gao, Xin Xia, Qing Liao,
- Abstract要約: 知識蒸留(KD)は、大きな教師モデルからコンパクトな学生モデルに知識を移すことによって制限に対処する。
本稿では,コード理解タスクにおけるKDの有効性と使用法を体系的に検討する。
- 参考スコア(独自算出の注目度): 19.64130505527951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) have emerged as powerful tools for code understanding. However, deploying these PLMs in large-scale applications faces practical challenges due to their computational intensity and inference latency. Knowledge distillation (KD), a promising model compression and acceleration technique, addresses these limitations by transferring knowledge from large teacher models to compact student models, enabling efficient inference while preserving most of the teacher models' capabilities. While this technique has shown remarkable success in natural language processing and computer vision domains, its potential for code understanding tasks remains largely underexplored. In this paper, we systematically investigate the effectiveness and usage of KD in code understanding tasks. Our study encompasses two popular types of KD methods, i.e., logit-based and feature-based KD methods, experimenting across eight student models and two teacher PLMs from different domains on three downstream tasks. The experimental results indicate that KD consistently offers notable performance boosts across student models with different sizes compared with standard fine-tuning. Notably, code-specific PLM demonstrates better effectiveness as the teacher model. Among all KD methods, the latest feature-based KD methods exhibit superior performance, enabling student models to retain up to 98% teacher performance with merely 5% parameters. Regarding student architecture, our experiments reveal that similarity with teacher architecture does not necessarily lead to better performance. We further discuss the efficiency and behaviors in the KD process and inference, summarize the implications of findings, and identify promising future directions.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、コード理解のための強力なツールとして登場した。
しかし、これらのPLMを大規模アプリケーションにデプロイすることは、計算強度と推論遅延のために現実的な課題に直面している。
有望なモデル圧縮および加速技術である知識蒸留(KD)は、大きな教師モデルからコンパクトな学生モデルに知識を移すことによってこれらの制限に対処し、教師モデルの能力の大部分を保ちながら効率的な推論を可能にする。
この技術は自然言語処理やコンピュータビジョン領域で顕著に成功したが、コード理解タスクの可能性はほとんど未解明のままである。
本稿では,コード理解タスクにおけるKDの有効性と使用法を体系的に検討する。
本研究は,2種類のKD手法,すなわちロジットに基づくKD法と特徴に基づくKD法を包含する。
実験結果から,KDは標準の微調整と比較して,学生モデル全体の顕著な性能向上を実現していることが明らかとなった。
特に、コード固有のPLMは教師モデルよりも優れた効果を示す。
すべてのKD手法の中で、最新の機能ベースのKD手法は優れた性能を示し、生徒モデルは5%のパラメータで最大98%のパフォーマンスを維持することができる。
学生アーキテクチャに関して、我々の実験は、教師アーキテクチャと類似性が必ずしもより良いパフォーマンスをもたらすとは限らないことを明らかにした。
さらに、KDプロセスの効率性と振る舞いについて考察し、結果の意味を要約し、将来有望な方向性を特定する。
関連論文リスト
- MoKD: Multi-Task Optimization for Knowledge Distillation [33.447451819037106]
知識蒸留(KD)における2つの重要な課題は、教師の指導と課題目標からの学習のバランスである。
知識蒸留のためのマルチタスク最適化(MoKD)を提案する。
MoKDはKDを多目的最適化問題として再定義し、目的物間のバランスを改善する。
論文 参考訳(メタデータ) (2025-05-13T02:13:39Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Continuation KD: Improved Knowledge Distillation through the Lens of
Continuation Optimization [29.113990037893597]
知識蒸留(KD)は、より大規模なモデル(教師)から知識を伝達することで、小さなモデル(学生)のパフォーマンスを向上させる自然言語理解(NLU)タスクに広く用いられている。
既存のKDテクニックは、教師の出力のノイズを軽減するものではない。
従来の手法と比較して,これらの問題に対処する新しいKD手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T16:00:20Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Dynamic Knowledge Distillation for Pre-trained Language Models [32.63862596630663]
本研究は,学生が学習手順を学習能力に応じて調整することのできる,動的知識蒸留法について考察する。
実験結果から,教師モデルの適切な選択は,生徒モデルの性能を高めることが示唆された。
動的知識蒸留は有望であり、将来的な方向性について議論する。
論文 参考訳(メタデータ) (2021-09-23T11:02:24Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。