Fugu-MT 論文翻訳(概要): BD-KD: Balancing the Divergences for Online Knowledge Distillation

論文の概要: BD-KD: Balancing the Divergences for Online Knowledge Distillation

arxiv url: http://arxiv.org/abs/2212.12965v1
Date: Sun, 25 Dec 2022 22:27:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 14:43:24.826683
Title: BD-KD: Balancing the Divergences for Online Knowledge Distillation
Title（参考訳）: BD-KD:オンライン知識蒸留における多様性のバランス
Authors: Ibtihel Amara, Nazanin Sepahvand, Brett H. Meyer, Warren J. Gross and James J. Clark
Abstract要約: 我々はBD-KD: オンライン知識蒸留のための多様性のバランスをとることを提案する。逆発散と前方発散の適応的バランスは、訓練戦略の焦点をコンパクトな学生ネットワークにシフトさせることを示す。本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
参考スコア（独自算出の注目度）: 12.27903419909491
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation (KD) has gained a lot of attention in the field of model compression for edge devices thanks to its effectiveness in compressing large powerful networks into smaller lower-capacity models. Online distillation, in which both the teacher and the student are learning collaboratively, has also gained much interest due to its ability to improve on the performance of the networks involved. The Kullback-Leibler (KL) divergence ensures the proper knowledge transfer between the teacher and student. However, most online KD techniques present some bottlenecks under the network capacity gap. By cooperatively and simultaneously training, the models the KL distance becomes incapable of properly minimizing the teacher's and student's distributions. Alongside accuracy, critical edge device applications are in need of well-calibrated compact networks. Confidence calibration provides a sensible way of getting trustworthy predictions. We propose BD-KD: Balancing of Divergences for online Knowledge Distillation. We show that adaptively balancing between the reverse and forward divergences shifts the focus of the training strategy to the compact student network without limiting the teacher network's learning process. We demonstrate that, by performing this balancing design at the level of the student distillation loss, we improve upon both performance accuracy and calibration of the compact student network. We conducted extensive experiments using a variety of network architectures and show improvements on multiple datasets including CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet. We illustrate the effectiveness of our approach through comprehensive comparisons and ablations with current state-of-the-art online and offline KD techniques.
Abstract（参考訳）: 知識蒸留(KD)は、より小さな低容量のモデルに大容量のネットワークを圧縮する効果により、エッジデバイスに対するモデル圧縮の分野で大きな注目を集めている。教師と生徒が共同で学習するオンライン蒸留も、ネットワークのパフォーマンスを向上させる能力により、大きな関心を集めている。 Kullback-Leibler (KL) は、教師と生徒の適切な知識伝達を保証する。しかしながら、ほとんどのオンラインKD技術は、ネットワーク容量ギャップの下でボトルネックを生じさせる。協調的かつ同時に訓練することにより、KL距離のモデルが教師と生徒の分布を適切に最小化できなくなる。正確性に加えて、重要なエッジデバイスアプリケーションは、よく校正されたコンパクトネットワークを必要とする。信頼度校正は、信頼できる予測を得るための賢明な方法を提供する。 BD-KD: オンライン知識蒸留のための分岐のバランスをとることを提案する。本研究では,教師ネットワークの学習過程に制限を加えることなく,学習戦略の焦点をコンパクトな学生ネットワークに適応的にシフトすることを示す。本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。 CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNet など,様々なネットワークアーキテクチャを用いた広範な実験を行った。本稿では,最先端のオンラインおよびオフラインkd技術との比較とアブレーションを通して,本手法の有効性を示す。

関連論文リスト

Dynamic Contrastive Knowledge Distillation for Efficient Image Restoration [17.27061613884289]
画像復元のための動的コントラスト知識蒸留(DCKD)フレームワークを提案する。具体的には,学生の学習状態を知覚するために,動的コントラスト正規化を導入する。また,教師モデルと学生モデルの画素レベルのカテゴリ分布を抽出・調整する分布マッピングモジュールを提案する。
論文参考訳（メタデータ） (2024-12-12T05:01:17Z)
Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。 CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文参考訳（メタデータ） (2024-10-09T05:42:47Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Learn from Balance: Rectifying Knowledge Transfer for Long-Tailed Scenarios [8.804625474114948]
知識蒸留(KD)は,教師ネットワークから生徒ネットワークへ知識を伝達する。本稿では,教師ネットワークに継承された不均衡な知識に対処するため,KRDistill(Knowledge Rectification Distillation)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-12T01:58:06Z)
Adaptive Teaching with Shared Classifier for Knowledge Distillation [6.03477652126575]
知識蒸留(KD)は、教師ネットワークから学生ネットワークへ知識を伝達する技術である。共有分類器(ATSC)を用いた適応型授業を提案する。提案手法は,CIFAR-100とImageNetのデータセットに対して,単教師と多教師の両方のシナリオで最新の結果が得られる。
論文参考訳（メタデータ） (2024-06-12T08:51:08Z)
Robust feature knowledge distillation for enhanced performance of lightweight crack segmentation models [2.023914201416672]
本稿では, き裂分割のための光モデルの精度を維持しつつ, 強靭性向上のための枠組みを開発する。 RFKDは教師モデルのロジット層と中間特徴写像から知識を消し去り、クリーンでノイズの多い混在した画像を利用する。 RFKDは,SOTA KD法と比較して62%,平均Diceスコア (mDS) に達した。
論文参考訳（メタデータ） (2024-04-09T12:32:10Z)
DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。 DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文参考訳（メタデータ） (2024-02-06T11:10:35Z)
StableKD: Breaking Inter-block Optimization Entanglement for Stable Knowledge Distillation [11.0282391137938]
IBOEを破り、より安定した最適化を実現する新しいKDフレームワークであるStableKDを提案する。他のKD手法と比較して、我々の単純で効果的なStableKDはモデルの精度を1%向上させ、収束を最大10倍に高速化し、トレーニングデータのわずか40%でそれらを上回ります。
論文参考訳（メタデータ） (2023-12-20T17:46:48Z)
Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文参考訳（メタデータ） (2023-11-23T11:34:48Z)
Co-training and Co-distillation for Quality Improvement and Compression of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文参考訳（メタデータ） (2023-11-06T03:29:00Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
Feature-domain Adaptive Contrastive Distillation for Efficient Single Image Super-Resolution [3.2453621806729234]
CNNベースのSISRは、多くのパラメータと高い計算コストを持ち、より良い性能を実現している。知識蒸留(KD)は教師の有用な知識を学生に伝達する。本稿では,軽量なSISRネットワークを効率的に訓練するための特徴領域適応型コントラスト蒸留(FACD)手法を提案する。
論文参考訳（メタデータ） (2022-11-29T06:24:14Z)
CES-KD: Curriculum-based Expert Selection for Guided Knowledge Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。 CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文参考訳（メタデータ） (2022-09-15T21:02:57Z)
Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文参考訳（メタデータ） (2022-05-28T16:11:49Z)
How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文参考訳（メタデータ） (2021-10-22T21:30:53Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)
Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文参考訳（メタデータ） (2020-05-02T06:56:56Z)
Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文参考訳（メタデータ） (2020-03-23T08:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。