論文の概要: L-SWAG: Layer-Sample Wise Activation with Gradients information for Zero-Shot NAS on Vision Transformers
- arxiv url: http://arxiv.org/abs/2505.07300v1
- Date: Mon, 12 May 2025 07:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.293308
- Title: L-SWAG: Layer-Sample Wise Activation with Gradients information for Zero-Shot NAS on Vision Transformers
- Title(参考訳): L-SWAG:Zero-Shot NAS on Vision Transformersのためのグラディエンス情報付きレイヤサンプルワイズ活性化
- Authors: Sofia Casarin, Sergio Escalera, Oswald Lanz,
- Abstract要約: トレーニングフリーなニューラルネットワーク探索(NAS)は、ゼロコスト(ZC)プロキシを使用して、高性能なニューラルネットワークを効率的に識別する。
ZC-NAS は (i) 時間効率であり、モデルトレーニングの必要性を排除し、 (ii) 解釈可能である。
この作業は、ビジョントランスフォーマー(ViT)へのZCプロキシの適用性を拡張する。
- 参考スコア(独自算出の注目度): 39.19675815138566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training-free Neural Architecture Search (NAS) efficiently identifies high-performing neural networks using zero-cost (ZC) proxies. Unlike multi-shot and one-shot NAS approaches, ZC-NAS is both (i) time-efficient, eliminating the need for model training, and (ii) interpretable, with proxy designs often theoretically grounded. Despite rapid developments in the field, current SOTA ZC proxies are typically constrained to well-established convolutional search spaces. With the rise of Large Language Models shaping the future of deep learning, this work extends ZC proxy applicability to Vision Transformers (ViTs). We present a new benchmark using the Autoformer search space evaluated on 6 distinct tasks and propose Layer-Sample Wise Activation with Gradients information (L-SWAG), a novel, generalizable metric that characterizes both convolutional and transformer architectures across 14 tasks. Additionally, previous works highlighted how different proxies contain complementary information, motivating the need for a ML model to identify useful combinations. To further enhance ZC-NAS, we therefore introduce LIBRA-NAS (Low Information gain and Bias Re-Alignment), a method that strategically combines proxies to best represent a specific benchmark. Integrated into the NAS search, LIBRA-NAS outperforms evolution and gradient-based NAS techniques by identifying an architecture with a 17.0% test error on ImageNet1k in just 0.1 GPU days.
- Abstract(参考訳): トレーニングフリーなニューラルネットワーク探索(NAS)は、ゼロコスト(ZC)プロキシを使用して、高性能なニューラルネットワークを効率的に識別する。
マルチショットとワンショットNASアプローチとは異なり、ZC-NASは両方である
一 時間効率、模型訓練の必要をなくし、
(ii) 解釈可能で、しばしば理論的に根拠づけられたプロキシ設計である。
この分野の急速な発展にもかかわらず、現在のSOTA ZCプロキシは通常、確立された畳み込み探索空間に制約される。
ディープラーニングの未来を形作る大規模言語モデルの台頭により、この研究はビジョントランスフォーマー(ViT)へのZCプロキシ適用性を拡張した。
本稿では、6つのタスクで評価されたAutoformerサーチスペースを用いた新しいベンチマークを提案し、14タスクにわたる畳み込みアーキテクチャとトランスフォーマーアーキテクチャの両方を特徴付ける新しい一般化可能な指標であるLayer-Sample Wise Activation with Gradients Information (L-SWAG)を提案する。
さらに、以前の研究は、異なるプロキシが補完的な情報を含んでいることを強調し、有用な組み合わせを特定するためのMLモデルの必要性を動機付けていた。
そこで我々は,ZC-NASをさらに強化するために,特定のベンチマークを最適に表現するためにプロキシを戦略的に組み合わせたLIBRA-NAS(Low Information gain and Bias Re-Alignment)を導入する。
NASサーチに統合されたLIBRA-NASは、わずか0.1GPU日でImageNet1k上で17.0%のテストエラーを持つアーキテクチャを識別することで、進化と勾配に基づくNAS技術より優れている。
関連論文リスト
- TG-NAS: Leveraging Zero-Cost Proxies with Transformer and Graph Convolution Networks for Efficient Neural Architecture Search [1.30891455653235]
TG-NASは、アーキテクチャのパフォーマンス予測のためのトレーニング不要プロキシを作成することを目的としている。
TG-NASはトランスフォーマーベースの演算子埋め込みジェネレータとグラフ畳み込みネットワーク(GCN)を利用してアーキテクチャ性能を予測する新しいモデルベースユニバーサルプロキシである。
TG-NASは従来のSOTA ZCプロキシ手法に比べて最大300倍の検索効率向上を実現している。
論文 参考訳(メタデータ) (2024-03-30T07:25:30Z) - DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - SiGeo: Sub-One-Shot NAS via Information Theory and Geometry of Loss
Landscape [14.550053893504764]
ゼロショットとワンショットNASの間のブリッジとして機能する"サブワンショット"パラダイムを導入する。
サブワンショットNASでは、スーパーネットはトレーニングデータの小さなサブセットのみを使用してトレーニングされる。
提案するプロキシは,スーパーネットウォームアップとプロキシの有効性を結びつける,新しい理論フレームワーク上に構築されたプロキシである。
論文 参考訳(メタデータ) (2023-11-22T05:25:24Z) - DiffusionNAG: Predictor-guided Neural Architecture Generation with Diffusion Models [56.584561770857306]
本研究では拡散モデルに基づく新しい条件付きニューラルネットワーク生成(NAG)フレームワークDiffusionNAGを提案する。
具体的には、ニューラルネットワークを有向グラフとみなし、それらを生成するためのグラフ拡散モデルを提案する。
本研究では,2つの予測型NAS(Transferable NAS)とベイズ最適化(BO)に基づくNAS(Bayesian Optimization)の2つのシナリオにおいて,DiffusionNAGの有効性を検証する。
BOベースのアルゴリズムに統合されると、DiffusionNAGは既存のBOベースのNASアプローチ、特にImageNet 1Kデータセット上の大規模なMobileNetV3検索スペースよりも優れている。
論文 参考訳(メタデータ) (2023-05-26T13:58:18Z) - NASiam: Efficient Representation Learning using Neural Architecture
Search for Siamese Networks [76.8112416450677]
シームズネットワークは、自己教師付き視覚表現学習(SSL)を実現するための最も傾向のある方法の1つである。
NASiamは、初めて微分可能なNASを使用して、多層パーセプトロンプロジェクタと予測器(エンコーダ/予測器ペア)を改善する新しいアプローチである。
NASiamは、小規模(CIFAR-10/CIFAR-100)と大規模(画像Net)画像分類データセットの両方で競合性能を達成し、わずか数GPU時間しかかからない。
論文 参考訳(メタデータ) (2023-01-31T19:48:37Z) - Lightweight Neural Architecture Search for Temporal Convolutional
Networks at the Edge [21.72253397805102]
この研究は特に、時系列処理のための畳み込みモデルであるTCN(Temporal Convolutional Networks)に焦点を当てている。
我々は,TNの最も特異なアーキテクチャパラメータの最適化を明示的に目標とする最初のNASツールを提案する。
提案したNASは,音声および生体信号を含む4つの実世界のエッジ関連タスクでテストする。
論文 参考訳(メタデータ) (2023-01-24T19:47:40Z) - Towards Self-supervised and Weight-preserving Neural Architecture Search [38.497608743382145]
本研究では,現在のNASフレームワークの拡張として,自己教師付き重み保存型ニューラルネットワーク探索(SSWP-NAS)を提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにおいて, 提案したフレームワークによって探索されたアーキテクチャが, 最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2022-06-08T18:48:05Z) - Generic Neural Architecture Search via Regression [27.78105839644199]
我々は、ジェネリックNAS(GenNAS)と呼ばれる新規で汎用的なニューラルアーキテクチャサーチ(NAS)フレームワークを提案する。
GenNASはタスク固有のラベルを使用せず、代わりに、アーキテクチャ評価のために手動で設計された合成信号基盤のセットにtextitregressionを採用する。
次に,下流タスク固有のラベルを用いた合成信号の組み合わせを最適化するタスクの自動探索を提案する。
論文 参考訳(メタデータ) (2021-08-04T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。