論文の概要: InstaTune: Instantaneous Neural Architecture Search During Fine-Tuning
- arxiv url: http://arxiv.org/abs/2308.15609v1
- Date: Tue, 29 Aug 2023 20:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 15:32:41.395783
- Title: InstaTune: Instantaneous Neural Architecture Search During Fine-Tuning
- Title(参考訳): InstaTune:ファインチューニング中の瞬時ニューラルネットワーク検索
- Authors: Sharath Nittur Sridhar, Souvik Kundu, Sairam Sundaresan, Maciej
Szankin, Anthony Sarah
- Abstract要約: One-Shot Neural Architecture Search (NAS)アルゴリズムは、ドメイン固有のタスクのためにハードウェアのスーパーネットワークをトレーニングすることに依存することが多い。
InstaTuneは、市販のトレーニング済み重量を大型モデルに活用し、微調整の段階でスーパーネットワークを生成する手法である。
- 参考スコア(独自算出の注目度): 6.11941624404596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-Shot Neural Architecture Search (NAS) algorithms often rely on training a
hardware agnostic super-network for a domain specific task. Optimal
sub-networks are then extracted from the trained super-network for different
hardware platforms. However, training super-networks from scratch can be
extremely time consuming and compute intensive especially for large models that
rely on a two-stage training process of pre-training and fine-tuning. State of
the art pre-trained models are available for a wide range of tasks, but their
large sizes significantly limits their applicability on various hardware
platforms. We propose InstaTune, a method that leverages off-the-shelf
pre-trained weights for large models and generates a super-network during the
fine-tuning stage. InstaTune has multiple benefits. Firstly, since the process
happens during fine-tuning, it minimizes the overall time and compute resources
required for NAS. Secondly, the sub-networks extracted are optimized for the
target task, unlike prior work that optimizes on the pre-training objective.
Finally, InstaTune is easy to "plug and play" in existing frameworks. By using
multi-objective evolutionary search algorithms along with lightly trained
predictors, we find Pareto-optimal sub-networks that outperform their
respective baselines across different performance objectives such as accuracy
and MACs. Specifically, we demonstrate that our approach performs well across
both unimodal (ViT and BERT) and multi-modal (BEiT-3) transformer based
architectures.
- Abstract(参考訳): One-Shot Neural Architecture Search (NAS)アルゴリズムは、ドメイン固有のタスクのためにハードウェアに依存しないスーパーネットワークをトレーニングする。
最適なサブネットワークは、異なるハードウェアプラットフォーム向けにトレーニングされたスーパーネットワークから抽出される。
しかし、特に事前トレーニングと微調整の2段階のトレーニングプロセスに依存する大規模モデルでは、スクラッチからスーパーネットワークをトレーニングするのには非常に時間がかかる。
最先端の事前訓練されたモデルは、幅広いタスクで利用できるが、その大きなサイズは、様々なハードウェアプラットフォームにおける適用性を著しく制限している。
InstaTuneは,市販の既訓練重量を大規模モデルに活用し,微調整段階にスーパーネットワークを生成する手法である。
InstaTuneには複数の利点がある。
まず、プロセスは微調整中に行われるので、NASに必要な全体的な時間と計算資源を最小化する。
第二に、抽出されたサブネットワークは、事前学習目標を最適化する以前の作業とは異なり、目標タスクに最適化される。
最後に、InstaTuneは既存のフレームワークで簡単に"プラグ&プレイ"できる。
多目的進化探索アルゴリズムと軽量に訓練された予測器を用いて、精度やMACなどの異なる性能目標において、それぞれのベースラインを上回るパレート最適化サブネットワークを求める。
具体的には,Unimodal (ViT および BERT) および Multi-modal (BEiT-3) 変換器ベースアーキテクチャの両方において,本手法が良好に動作することを示す。
関連論文リスト
- SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture
Search [6.121126813817338]
最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。
我々は,光学習された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャとそれに対応する量子化ポリシーの両方を効率的に探索できることを示す。
論文 参考訳(メタデータ) (2023-12-19T22:08:49Z) - Stitched ViTs are Flexible Vision Backbones [51.441023711924835]
我々は、縫合可能なニューラルネットワーク(SN-Net)にインスパイアされ、訓練済みのモデルファミリーを縫合することで、リッチワークをカバーする単一のモデルを生成する。
我々は、下流タスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークSN-Netv2を紹介する。
SN-Netv2は、下流の高密度予測においてSN-Netv1よりも優れた性能を示し、柔軟なビジョンバックボーンとして強力な能力を示している。
論文 参考訳(メタデータ) (2023-06-30T22:05:34Z) - Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts [55.470959564665705]
ウェイトシェアリングスーパーネットは、最先端のニューラルサーチフレームワークのパフォーマンス評価に不可欠である。
提案手法は,高速機械翻訳モデルのためのNASにおける最先端(SoTA)性能を実現する。
メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASが優れている。
論文 参考訳(メタデータ) (2023-06-08T00:35:36Z) - OFA$^2$: A Multi-Objective Perspective for the Once-for-All Neural
Architecture Search [79.36688444492405]
once-for-All(OFA)は、異なるリソース制約を持つデバイスのための効率的なアーキテクチャを探索する問題に対処するために設計された、ニューラルネットワーク検索(NAS)フレームワークである。
我々は,探索段階を多目的最適化問題として明示的に考えることにより,効率の追求を一歩進めることを目指している。
論文 参考訳(メタデータ) (2023-03-23T21:30:29Z) - A Hardware-Aware Framework for Accelerating Neural Architecture Search
Across Modalities [7.542742087154667]
進化的アルゴリズムが、アーキテクチャ探索を加速するために反復サイクルにおいて、軽量に訓練された客観的予測器とどのように組み合わせられるかを示す。
具体的には、進化的アルゴリズムがアーキテクチャ探索を加速する反復サイクルにおいて、軽量に訓練された客観的予測器とどのように組み合わせられるかを示す。
論文 参考訳(メタデータ) (2022-05-19T20:41:01Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Optimising the Performance of Convolutional Neural Networks across
Computing Systems using Transfer Learning [0.08594140167290096]
本稿では,パフォーマンスモデリングの機械学習に基づくアプローチにより,長大なプロファイリングステージを置き換えることを提案する。
トレーニング後、我々のパフォーマンスモデルは任意のレイヤ構成における畳み込みプリミティブのパフォーマンスを推定できる。
プリミティブ選択による大規模ニューラルネットワークの実行を最適化する時間は、数時間から秒に短縮される。
論文 参考訳(メタデータ) (2020-10-20T20:58:27Z) - PONAS: Progressive One-shot Neural Architecture Search for Very
Efficient Deployment [9.442139459221783]
我々は,進歩的NASとワンショット手法の利点を組み合わせた,プログレッシブワンショットニューラルアーキテクチャサーチ(PONAS)を提案する。
PONASは10秒で特別なネットワークのアーキテクチャを見つけることができる。
ImageNetの分類では、75.2%のトップ1の精度が得られる。
論文 参考訳(メタデータ) (2020-03-11T05:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。