論文の概要: Generalization Matters: Loss Minima Flattening via Parameter
Hybridization for Efficient Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2303.14666v1
- Date: Sun, 26 Mar 2023 09:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:09:01.284475
- Title: Generalization Matters: Loss Minima Flattening via Parameter
Hybridization for Efficient Online Knowledge Distillation
- Title(参考訳): 一般化問題:効率的なオンライン知識蒸留のためのパラメータハイブリダイゼーションによる損失最小化
- Authors: Tianli Zhang, Mengqi Xue, Jiangtao Zhang, Haofei Zhang, Yu Wang,
Lechao Cheng, Jie Song and Mingli Song
- Abstract要約: パラメータハイブリダイゼーション(OKDPH)による新しいOKDフレームワークを提案する。
平坦な最小値を求めるSOTA(State-of-the-art(SOTA) OKD法とSOTA(SOTA) OKD法と比較して,より少ないパラメータで高い性能を実現する。
- 参考スコア(独自算出の注目度): 32.09650469787614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing online knowledge distillation(OKD) techniques typically require
sophisticated modules to produce diverse knowledge for improving students'
generalization ability. In this paper, we strive to fully utilize multi-model
settings instead of well-designed modules to achieve a distillation effect with
excellent generalization performance. Generally, model generalization can be
reflected in the flatness of the loss landscape. Since averaging parameters of
multiple models can find flatter minima, we are inspired to extend the process
to the sampled convex combinations of multi-student models in OKD.
Specifically, by linearly weighting students' parameters in each training
batch, we construct a Hybrid-Weight Model(HWM) to represent the parameters
surrounding involved students. The supervision loss of HWM can estimate the
landscape's curvature of the whole region around students to measure the
generalization explicitly. Hence we integrate HWM's loss into students'
training and propose a novel OKD framework via parameter hybridization(OKDPH)
to promote flatter minima and obtain robust solutions. Considering the
redundancy of parameters could lead to the collapse of HWM, we further
introduce a fusion operation to keep the high similarity of students. Compared
to the state-of-the-art(SOTA) OKD methods and SOTA methods of seeking flat
minima, our OKDPH achieves higher performance with fewer parameters, benefiting
OKD with lightweight and robust characteristics. Our code is publicly available
at https://github.com/tianlizhang/OKDPH.
- Abstract(参考訳): 既存のオンライン知識蒸留(OKD)技術の多くは、学生の一般化能力を改善するために様々な知識を生み出すために洗練されたモジュールを必要とする。
本稿では,よく設計されたモジュールの代わりにマルチモデル設定を十分に活用して,高い一般化性能を有する蒸留効果を実現する。
一般に、モデル一般化は損失景観の平坦さに反映することができる。
複数のモデルのパラメータ平均化はより平坦な最小値を見つけることができるため、okd のマルチスチューデントモデルのサンプル凸結合にプロセスを拡張できることに着想を得た。
具体的には,各学習バッチで学生のパラメータを線形に重み付けすることにより,学生を取り巻くパラメータを表現するハイブリッドウェイトモデル(HWM)を構築する。
HWMの監督的損失は、学生の周囲の風景の曲率を推定し、一般化を明示的に測定することができる。
そこで,HWMの損失を学生のトレーニングに統合し,パラメータハイブリダイゼーション(OKDPH)による新しいOKDフレームワークを提案する。
パラメータの冗長性を考慮するとhwmが崩壊する可能性があり、さらに学生の類似性を高めるために融合操作を導入する。
平坦な最小値を求めるSOTA(State-of-the-art(SOTA) OKD法やSOTA(SOTA)法と比較すると,より少ないパラメータで高い性能を実現し,軽量でロバストな特性を持つOKDの恩恵を受けることができる。
私たちのコードはhttps://github.com/tianlizhang/OKDPHで公開されています。
関連論文リスト
- Sine Activated Low-Rank Matrices for Parameter Efficient Learning [25.12262017296922]
低ランク分解過程に正弦波関数を統合する新しい理論枠組みを提案する。
我々の手法は、視覚変換器(ViT)、Large Language Models(LLM)、NeRF(Neural Radiance Fields)において、既存の低ランクモデルの強化を証明している。
論文 参考訳(メタデータ) (2024-03-28T08:58:20Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers [12.432191400869002]
MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。
提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
論文 参考訳(メタデータ) (2022-10-12T17:23:21Z) - Online Hyperparameter Meta-Learning with Hypergradient Distillation [59.973770725729636]
勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
論文 参考訳(メタデータ) (2021-10-06T05:14:53Z) - Follow Your Path: a Progressive Method for Knowledge Distillation [23.709919521355936]
本稿では,教師モデルの指導信号を学生のパラメータ空間に投影することで,新しいモデルに依存しないProKTを提案する。
画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2021-07-20T07:44:33Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。