論文の概要: Memory-Efficient Transfer Learning with Fading Side Networks via Masked Dual Path Distillation
- arxiv url: http://arxiv.org/abs/2604.09088v1
- Date: Fri, 10 Apr 2026 08:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.769036
- Title: Memory-Efficient Transfer Learning with Fading Side Networks via Masked Dual Path Distillation
- Title(参考訳): マスク付きデュアルパス蒸留によるフェイディングサイドネットワークによるメモリ効率向上学習
- Authors: Yutong Zhang, Jiaxin Chen, Honglin Chen, Kaiqi Zheng, Shengcai Liao, Hanwen Zhong, Weixin Li, Yunhong Wang,
- Abstract要約: そこで我々は,Masked Dual Path Distillation (MDPD) と呼ばれる新しい手法を提案する。
MDPDはパラメータとメモリ消費を同等に保ちながら、推論を少なくとも25.2%高速化することを示す。
提案手法はSOTA手法と比較して精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 41.8703974624689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory-efficient transfer learning (METL) approaches have recently achieved promising performance in adapting pre-trained models to downstream tasks. They avoid applying gradient backpropagation in large backbones, thus significantly reducing the number of trainable parameters and high memory consumption during fine-tuning. However, since they typically employ a lightweight and learnable side network, these methods inevitably introduce additional memory and time overhead during inference, which contradicts the ultimate goal of efficient transfer learning. To address the above issue, we propose a novel approach dubbed Masked Dual Path Distillation (MDPD) to accelerate inference while retaining parameter and memory efficiency in fine-tuning with fading side networks. Specifically, MDPD develops a framework that enhances the performance by mutually distilling the frozen backbones and learnable side networks in fine-tuning, and discard the side network during inference without sacrificing accuracy. Moreover, we design a novel feature-based knowledge distillation method for the encoder structure with multiple layers. Extensive experiments on distinct backbones across vision/language-only and vision-and-language tasks demonstrate that our method not only accelerates inference by at least 25.2\% while keeping parameter and memory consumption comparable, but also remarkably promotes the accuracy compared to SOTA approaches. The source code is available at https://github.com/Zhang-VKk/MDPD.
- Abstract(参考訳): メモリ効率変換学習(METL)アプローチは、最近、ダウンストリームタスクに事前学習されたモデルを適用することで、有望な性能を達成した。
大きなバックボーンに勾配のバックプロパゲーションを適用することを避けるため、微調整時にトレーニング可能なパラメータの数と高いメモリ消費を大幅に削減できる。
しかし、通常は軽量で学習可能なサイドネットワークを使用するため、これらの手法は推論中にメモリと時間のオーバーヘッドを必然的に導入する。
この課題に対処するために,フェードサイドネットワークを用いた微調整において,パラメータとメモリ効率を保ちつつ,推論を高速化するMasked Dual Path Distillation (MDPD) という新しい手法を提案する。
具体的には、MDPDは、冷凍したバックボーンと学習可能なサイドネットワークを微調整で相互に蒸留し、精度を犠牲にすることなく、推論中にサイドネットワークを破棄することで性能を向上させるフレームワークを開発する。
さらに,複数の層を有するエンコーダ構造のための特徴量に基づく新しい知識蒸留法を設計する。
視覚・言語・言語タスクの異なるバックボーンに対する広範な実験により、我々の手法は、パラメータとメモリ消費を同等に保ちながら、少なくとも25.2\%の推論を加速するだけでなく、SOTAアプローチと比較して精度を著しく向上させることを示した。
ソースコードはhttps://github.com/Zhang-VKk/MDPDで入手できる。
関連論文リスト
- TS-Memory: Plug-and-Play Memory for Time Series Foundation Models [63.21390142212087]
Time Series Foundation Models (TSFM) は大規模な事前訓練を通じて強力なゼロショット予測を実現する。
パラメトリック適応は破滅的な忘れを招き、非パラメトリック検索は予測を改善するが、データストア検索によってレイテンシが高くなる。
本稿では, TSFM を拡張した軽量メモリアダプタ TS-Memory としてParametric Memory Distillation を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-12T04:16:19Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Fused Depthwise Tiling for Memory Optimization in TinyML Deep Neural
Network Inference [1.6094180182513644]
ディープニューラルネットワーク(DNN)推論のためのメモリ最適化は、TinyMLの出現と高い関連性を得る。
DNN推論は、アクティベーションやその他の中間データを格納するために大きな中間実行時バッファを必要とするため、高いメモリ使用率につながる。
本稿では,DNNのメモリ最適化のためのFDT法を提案する。
論文 参考訳(メタデータ) (2023-03-31T08:26:17Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。