Fugu-MT 論文翻訳(概要): Practical Insights into Knowledge Distillation for Pre-Trained Models

論文の概要: Practical Insights into Knowledge Distillation for Pre-Trained Models

arxiv url: http://arxiv.org/abs/2402.14922v2
Date: Tue, 22 Jul 2025 10:21:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-23 21:34:13.719225
Title: Practical Insights into Knowledge Distillation for Pre-Trained Models
Title（参考訳）: 事前学習モデルの知識蒸留に関する実践的考察
Authors: Norah Alballa, Ahmed M. Abdelmoniem, Marco Canini,
Abstract要約: 本研究では,事前学習モデルにおける知識蒸留(KD)プロセスの強化について検討する。事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、KDの応用に関する包括的な理解は欠如している。本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。
参考スコア（独自算出の注目度）: 7.248285042377168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research investigates the enhancement of knowledge distillation (KD) processes in pre-trained models, an emerging field in knowledge transfer with significant implications for distributed training and federated learning environments. These environments benefit from reduced communication demands and accommodate various model architectures. Despite the adoption of numerous KD approaches for transferring knowledge among pre-trained models, a comprehensive understanding of KD's application in these scenarios is lacking. Our study conducts an extensive comparison of multiple KD techniques, including standard KD, tuned KD (via optimized temperature and weight parameters), deep mutual learning, and data partitioning KD. We assess these methods across various data distribution strategies to identify the most effective contexts for each. Through detailed examination of hyperparameter tuning, informed by extensive grid search evaluations, we pinpoint when adjustments are crucial to enhance model performance. This paper sheds light on optimal hyperparameter settings for distinct data partitioning scenarios and investigates KD's role in improving federated learning by minimizing communication rounds and expediting the training process. By filling a notable void in current research, our findings serve as a practical framework for leveraging KD in pre-trained models within collaborative and federated learning frameworks.
Abstract（参考訳）: 本研究は,知識伝達の新たな分野である事前学習モデルにおける知識蒸留(KD)プロセスの強化と,分散トレーニングやフェデレート学習環境への重要な影響について検討する。これらの環境は、通信要求を減らし、様々なモデルアーキテクチャに適合する。事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、これらのシナリオにおけるKDの応用に関する包括的な理解は欠如している。本研究は,標準KD,調整KD(最適化温度と重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。我々はこれらの手法を様々なデータ分散戦略にまたがって評価し、それぞれに最も効果的なコンテキストを特定する。広範グリッドサーチ評価によるハイパーパラメータチューニングの詳細な検討を通じて、モデル性能を向上させるために調整が不可欠であるかどうかを判断する。本稿では,異なるデータ分割シナリオに対する最適なハイパーパラメータ設定について光を当て,コミュニケーションラウンドの最小化とトレーニングプロセスの迅速化によるフェデレーション学習におけるKDの役割について考察する。現在の研究で顕著な空白を埋めることによって、我々の研究は、協調的および連合的な学習フレームワーク内で、事前学習されたモデルにKDを活用するための実践的なフレームワークとして機能する。

関連論文リスト

KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文参考訳（メタデータ） (2025-06-02T19:46:41Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Applications of Knowledge Distillation in Remote Sensing: A Survey [3.481234252899159]
知識蒸留(KD)は、複雑な、しばしば面倒なモデル(教師)からよりコンパクトで効率的なモデル(学生)へ知識を伝達するために開発された技術である。この記事では、KDテクニックの包括的な分類法を提供し、各カテゴリを批判的に分析して、代替オプションの幅と深さを実証する。本報告では, RSにおけるKDの課題と限界について論じる。
論文参考訳（メタデータ） (2024-09-18T16:30:49Z)
Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文参考訳（メタデータ） (2024-06-28T09:23:40Z)
A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文参考訳（メタデータ） (2024-02-20T16:17:37Z)
ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift [7.256448072529497]
知識蒸留(KD)は、大きなモデルから小さなモデルに知識を伝達し、近年顕著な成功を収めている。しかし、実世界のアプリケーションにおける既存のKD手法の信頼性は、特に分布シフト下では、未解明のままである。 KDを2つの分散シフトに対してベンチマークするために,統一的かつ体系的なフレームワークtextscShiftKDを提案する。
論文参考訳（メタデータ） (2023-12-25T10:43:31Z)
Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文参考訳（メタデータ） (2023-11-23T11:34:48Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)
Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文参考訳（メタデータ） (2020-07-03T19:54:04Z)
Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文参考訳（メタデータ） (2020-05-02T06:56:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。