Fugu-MT 論文翻訳(概要): Generalization Matters: Loss Minima Flattening via Parameter Hybridization for Efficient Online Knowledge Distillation

論文の概要: Generalization Matters: Loss Minima Flattening via Parameter Hybridization for Efficient Online Knowledge Distillation

arxiv url: http://arxiv.org/abs/2303.14666v1
Date: Sun, 26 Mar 2023 09:40:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 18:09:01.284475
Title: Generalization Matters: Loss Minima Flattening via Parameter Hybridization for Efficient Online Knowledge Distillation
Title（参考訳）: 一般化問題:効率的なオンライン知識蒸留のためのパラメータハイブリダイゼーションによる損失最小化
Authors: Tianli Zhang, Mengqi Xue, Jiangtao Zhang, Haofei Zhang, Yu Wang, Lechao Cheng, Jie Song and Mingli Song
Abstract要約: パラメータハイブリダイゼーション(OKDPH)による新しいOKDフレームワークを提案する。平坦な最小値を求めるSOTA(State-of-the-art(SOTA) OKD法とSOTA(SOTA) OKD法と比較して,より少ないパラメータで高い性能を実現する。
参考スコア（独自算出の注目度）: 32.09650469787614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most existing online knowledge distillation(OKD) techniques typically require sophisticated modules to produce diverse knowledge for improving students' generalization ability. In this paper, we strive to fully utilize multi-model settings instead of well-designed modules to achieve a distillation effect with excellent generalization performance. Generally, model generalization can be reflected in the flatness of the loss landscape. Since averaging parameters of multiple models can find flatter minima, we are inspired to extend the process to the sampled convex combinations of multi-student models in OKD. Specifically, by linearly weighting students' parameters in each training batch, we construct a Hybrid-Weight Model(HWM) to represent the parameters surrounding involved students. The supervision loss of HWM can estimate the landscape's curvature of the whole region around students to measure the generalization explicitly. Hence we integrate HWM's loss into students' training and propose a novel OKD framework via parameter hybridization(OKDPH) to promote flatter minima and obtain robust solutions. Considering the redundancy of parameters could lead to the collapse of HWM, we further introduce a fusion operation to keep the high similarity of students. Compared to the state-of-the-art(SOTA) OKD methods and SOTA methods of seeking flat minima, our OKDPH achieves higher performance with fewer parameters, benefiting OKD with lightweight and robust characteristics. Our code is publicly available at https://github.com/tianlizhang/OKDPH.
Abstract（参考訳）: 既存のオンライン知識蒸留(OKD)技術の多くは、学生の一般化能力を改善するために様々な知識を生み出すために洗練されたモジュールを必要とする。本稿では,よく設計されたモジュールの代わりにマルチモデル設定を十分に活用して,高い一般化性能を有する蒸留効果を実現する。一般に、モデル一般化は損失景観の平坦さに反映することができる。複数のモデルのパラメータ平均化はより平坦な最小値を見つけることができるため、okd のマルチスチューデントモデルのサンプル凸結合にプロセスを拡張できることに着想を得た。具体的には,各学習バッチで学生のパラメータを線形に重み付けすることにより,学生を取り巻くパラメータを表現するハイブリッドウェイトモデル(HWM)を構築する。 HWMの監督的損失は、学生の周囲の風景の曲率を推定し、一般化を明示的に測定することができる。そこで,HWMの損失を学生のトレーニングに統合し,パラメータハイブリダイゼーション(OKDPH)による新しいOKDフレームワークを提案する。パラメータの冗長性を考慮するとhwmが崩壊する可能性があり、さらに学生の類似性を高めるために融合操作を導入する。平坦な最小値を求めるSOTA(State-of-the-art(SOTA) OKD法やSOTA(SOTA)法と比較すると,より少ないパラメータで高い性能を実現し,軽量でロバストな特性を持つOKDの恩恵を受けることができる。私たちのコードはhttps://github.com/tianlizhang/OKDPHで公開されています。

関連論文リスト

A Hessian-informed hyperparameter optimization for differential learning rate [10.43211367988483]
Hessian-informed differential learning rate (Hi-DLR)は、異なるモデルパラメータに異なる学習率を適用する手法である。ハイDLRは、トレーニング中の学習率を動的に決定することで収束を改善することができる。また、様々なフルモデルトレーニングタスクで同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2025-01-12T22:21:06Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文参考訳（メタデータ） (2024-11-10T12:40:59Z)
MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文参考訳（メタデータ） (2024-10-01T07:47:03Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。 PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。 PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文参考訳（メタデータ） (2024-09-25T17:56:00Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-28T11:23:34Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
MiniALBERT: Model Distillation via Parameter-Efficient Recursive Transformers [12.432191400869002]
MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
論文参考訳（メタデータ） (2022-10-12T17:23:21Z)
Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文参考訳（メタデータ） (2021-04-12T16:23:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。