論文の概要: Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for
Memory-Efficient Finetuning
- arxiv url: http://arxiv.org/abs/2401.04105v1
- Date: Mon, 8 Jan 2024 18:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 13:57:14.030365
- Title: Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for
Memory-Efficient Finetuning
- Title(参考訳): Dr$2$Net: メモリ効率の良いファインタニングのための動的可逆デュアルレジデンシャルネットワーク
- Authors: Chen Zhao, Shuming Liu, Karttikeya Mangalam, Guocheng Qian, Fatimah
Zohra, Abdulmohsen Alghannam, Jitendra Malik, Bernard Ghanem
- Abstract要約: 本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
- 参考スコア(独自算出の注目度): 84.50003044711602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pretrained models are increasingly crucial in modern computer vision
tasks. These models are typically used in downstream tasks by end-to-end
finetuning, which is highly memory-intensive for tasks with high-resolution
data, e.g., video understanding, small object detection, and point cloud
analysis. In this paper, we propose Dynamic Reversible Dual-Residual Networks,
or Dr$^2$Net, a novel family of network architectures that acts as a surrogate
network to finetune a pretrained model with substantially reduced memory
consumption. Dr$^2$Net contains two types of residual connections, one
maintaining the residual structure in the pretrained models, and the other
making the network reversible. Due to its reversibility, intermediate
activations, which can be reconstructed from output, are cleared from memory
during training. We use two coefficients on either type of residual connections
respectively, and introduce a dynamic training strategy that seamlessly
transitions the pretrained model to a reversible network with much higher
numerical precision. We evaluate Dr$^2$Net on various pretrained models and
various tasks, and show that it can reach comparable performance to
conventional finetuning but with significantly less memory usage.
- Abstract(参考訳): 大規模な事前学習モデルは、現代のコンピュータビジョンタスクにおいてますます重要になっている。
これらのモデルは通常、エンド・ツー・エンドの微調整によって下流のタスクで使用され、高解像度なデータ、例えばビデオ理解、小さなオブジェクト検出、ポイントクラウド分析などのタスクにメモリ集約的に使用される。
本稿では、メモリ消費を大幅に削減した事前学習モデルの微調整を行う代理ネットワークとして機能する新しいネットワークアーキテクチャ群であるDynamic Reversible Dual-Residual Networks(Dr^2$Net)を提案する。
dr$^2$net は2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆化する。
その可逆性のため、出力から再構築可能な中間活性化は、トレーニング中にメモリからクリアされる。
いずれの残差接続にも2つの係数を用いており、より高い数値精度で事前学習されたモデルを可逆ネットワークにシームレスに移行する動的トレーニング戦略を導入する。
各種事前学習モデルと各種タスクについてDr^2$Netを評価し,従来の微調整に匹敵する性能を示すが,メモリ使用量を大幅に削減できることを示す。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectors [4.95475852994362]
本稿では,バイナリ重み付きニューラルネットワークのサブビット圧縮を実現するために,ビット列を持つタイル型ニューラルネットワーク層に対する新しい量子化方式を提案する。
私たちは完全に接続された層と畳み込み層の両方にアプローチを採用しています。
論文 参考訳(メタデータ) (2024-07-16T15:55:38Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Residual Multi-Fidelity Neural Network Computing [0.0]
残差関数としてモデル間の相関を定式化する残差多忠実計算フレームワークを提案する。
計算コストの劇的な削減は、出力予測が小さな許容範囲内で正確であることを望んでいれば達成できることを示す。
論文 参考訳(メタデータ) (2023-10-05T14:43:16Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Neural Network Training Using $\ell_1$-Regularization and Bi-fidelity
Data [0.0]
高忠実度モデルからの小さなトレーニングデータセットのみが利用可能である場合、スペーサがニューラルネットワークのトレーニングに$ell_$-regularizationを促進させる効果について検討する。
本稿では,問題の低忠実度モデルから得られたデータを用いて訓練した同一ネットワークのパラメータから,$ell_$-regularizationの2つの変種について考察する。
これらのバイフィダリティ戦略は、大きな低フィダリティデータセットから学習したパラメータを使用して、小さな高フィダリティデータセットのためにネットワークを効率的にトレーニングするニューラルネットワークの転送学習の一般化である。
論文 参考訳(メタデータ) (2021-05-27T08:56:17Z) - MutualNet: Adaptive ConvNet via Mutual Learning from Different Model
Configurations [51.85020143716815]
MutualNetは、リソース制約の多様なセットで実行できる単一のネットワークを訓練するために提案します。
提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。
MutualNetは、さまざまなネットワーク構造に適用できる一般的なトレーニング方法論です。
論文 参考訳(メタデータ) (2021-05-14T22:30:13Z) - Enabling Binary Neural Network Training on the Edge [7.32770338248516]
既存のバイナリニューラルネットワークトレーニング手法では、すべてのレイヤに対して高精度なアクティベーションを同時に保存する必要がある。
本稿では,メモリフットプリントの大幅な削減を図った,低コストなバイナリニューラルネットワークトレーニング戦略を提案する。
また、2ナライズされたResNet-18のin-scratch ImageNetトレーニングも実施し、3.78$times$メモリ削減を実現した。
論文 参考訳(メタデータ) (2021-02-08T15:06:41Z) - Continuous-in-Depth Neural Networks [107.47887213490134]
まず最初に、このリッチな意味では、ResNetsは意味のある動的でないことを示します。
次に、ニューラルネットワークモデルが連続力学系を表現することを実証する。
ResNetアーキテクチャの詳細な一般化としてContinuousNetを紹介します。
論文 参考訳(メタデータ) (2020-08-05T22:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。