論文の概要: Dextr: Zero-Shot Neural Architecture Search with Singular Value Decomposition and Extrinsic Curvature
- arxiv url: http://arxiv.org/abs/2508.12977v1
- Date: Mon, 18 Aug 2025 14:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.384717
- Title: Dextr: Zero-Shot Neural Architecture Search with Singular Value Decomposition and Extrinsic Curvature
- Title(参考訳): Dextr: Singular Value DecompositionとExtrinsic Curvatureを用いたゼロショットニューラルアーキテクチャ検索
- Authors: Rohan Asthana, Joschua Conrad, Maurits Ortmanns, Vasileios Belagiannis,
- Abstract要約: 本稿では,ラベル付きデータの計算要求を省略するゼロコストプロキシを提案する。
提案手法は,1つのラベルのないデータサンプルのみを用いて,テストデータ上でのネットワーク性能の正確な予測を可能にする。
- 参考スコア(独自算出の注目度): 8.219278958506592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Neural Architecture Search (NAS) typically optimises the architecture search process by exploiting the network or gradient properties at initialisation through zero-cost proxies. The existing proxies often rely on labelled data, which is usually unavailable in real-world settings. Furthermore, the majority of the current methods focus either on optimising the convergence and generalisation attributes or solely on the expressivity of the network architectures. To address both limitations, we first demonstrate how channel collinearity affects the convergence and generalisation properties of a neural network. Then, by incorporating the convergence, generalisation and expressivity in one approach, we propose a zero-cost proxy that omits the requirement of labelled data for its computation. In particular, we leverage the Singular Value Decomposition (SVD) of the neural network layer features and the extrinsic curvature of the network output to design our proxy. %As a result, the proposed proxy is formulated as the simplified harmonic mean of the logarithms of two key components: the sum of the inverse of the feature condition number and the extrinsic curvature of the network output. Our approach enables accurate prediction of network performance on test data using only a single label-free data sample. Our extensive evaluation includes a total of six experiments, including the Convolutional Neural Network (CNN) search space, i.e. DARTS and the Transformer search space, i.e. AutoFormer. The proposed proxy demonstrates a superior performance on multiple correlation benchmarks, including NAS-Bench-101, NAS-Bench-201, and TransNAS-Bench-101-micro; as well as on the NAS task within the DARTS and the AutoFormer search space, all while being notably efficient. The code is available at https://github.com/rohanasthana/Dextr.
- Abstract(参考訳): Zero-shot Neural Architecture Search (NAS) は通常、ゼロコストプロキシによる初期化時にネットワークまたは勾配特性を利用してアーキテクチャ検索プロセスを最適化する。
既存のプロキシはラベル付きデータに依存することが多く、通常は現実世界では利用できない。
さらに、現在の手法の大半は収束と一般化の属性の最適化、あるいはネットワークアーキテクチャの表現性のみに焦点を当てている。
両制約に対処するために、まず、チャネルコリニアリティがニューラルネットワークの収束と一般化特性にどのように影響するかを示す。
そして,収束,一般化,表現性を1つのアプローチに組み込むことで,ラベル付きデータの計算要求を省略するゼロコストプロキシを提案する。
特に、ニューラルネットワーク層の特徴の特異値分解(SVD)と、ネットワーク出力の外部曲率を利用してプロキシを設計する。
その結果、提案したプロキシは、2つの主要成分の対数の単純化された調和平均として、特徴条件数の逆数とネットワーク出力の外部曲率の和として定式化される。
提案手法は,1つのラベルのないデータサンプルのみを用いて,テストデータ上でのネットワーク性能の正確な予測を可能にする。
我々の広範囲な評価には、畳み込みニューラルネットワーク(CNN)サーチスペース、DARTS、Transformerサーチスペース、AutoFormerを含む6つの実験が含まれる。
提案するプロキシは,NAS-Bench-101,NAS-Bench-201,TransNAS-Bench-101-micro,DARTSおよびAutoFormer検索空間内のNASタスクなど,複数の相関ベンチマークにおいて優れた性能を示す。
コードはhttps://github.com/rohanasthana/Dextr.comで公開されている。
関連論文リスト
- ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - TG-NAS: Generalizable Zero-Cost Proxies with Operator Description Embedding and Graph Learning for Efficient Neural Architecture Search [1.7356500114422735]
TG-NASは汎用的なモデルベースのゼロコストプロキシで、Transformerベースの演算子埋め込みジェネレータとGraph Convolutional Network(GCN)を組み合わせてアーキテクチャのパフォーマンスを予測する。
探索効率を最大300倍改善し、NAS-Bench-201で93.75%のCIFAR-10精度、DARTS空間で74.9%のImageNet Top-1精度を実現した。
論文 参考訳(メタデータ) (2024-03-30T07:25:30Z) - Efficacy of Neural Prediction-Based Zero-Shot NAS [0.04096453902709291]
ディープラーニングを用いたゼロショットニューラルアーキテクチャ探索(NAS)の新しい手法を提案する。
提案手法では,畳み込みカーネルを符号化した罪のフーリエ和を用いて,評価対象のアーキテクチャに類似した構造を持つ計算フィードフォワードグラフの構築を可能にする。
実験の結果,NAS-Bench-201データセットの相関関係から,グラフ畳み込みネットワークを用いた従来の手法よりも高い収束率を示すことがわかった。
論文 参考訳(メタデータ) (2023-08-31T14:54:06Z) - Contextualizing MLP-Mixers Spatiotemporally for Urban Data Forecast at Scale [54.15522908057831]
本稿では,STTD予測を大規模に行うためのコンピュータ・ミクサーの適応版を提案する。
我々の結果は、この単純な効率の良いソリューションが、いくつかのトラフィックベンチマークでテストした場合、SOTAベースラインに匹敵する可能性があることを驚くほど示している。
本研究は, 実世界のSTTD予測において, 簡便な有効モデルの探索に寄与する。
論文 参考訳(メタデータ) (2023-07-04T05:19:19Z) - Set-based Neural Network Encoding Without Weight Tying [91.37161634310819]
本稿では,ネットワーク特性予測のためのニューラルネットワーク重み符号化手法を提案する。
我々のアプローチは、混合アーキテクチャのモデル動物園でニューラルネットワークを符号化することができる。
ニューラルネットワークのプロパティ予測には,クロスデータセットとクロスアーキテクチャという,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-05-26T04:34:28Z) - A General-Purpose Transferable Predictor for Neural Architecture Search [22.883809911265445]
本稿では,探索空間を横断的に移動可能なニューラルネットワーク探索(NAS)のための汎用ニューラルネットワーク予測器を提案する。
NAS-Bench-101, 201, 301の実験結果から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-21T17:28:05Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。