論文の概要: Towards Accurate and Compact Architectures via Neural Architecture
Transformer
- arxiv url: http://arxiv.org/abs/2102.10301v1
- Date: Sat, 20 Feb 2021 09:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:01:14.791399
- Title: Towards Accurate and Compact Architectures via Neural Architecture
Transformer
- Title(参考訳): ニューラルアーキテクチャトランスフォーマによる精度とコンパクト化に向けて
- Authors: Yong Guo, Yin Zheng, Mingkui Tan, Qi Chen, Zhipeng Li, Jian Chen,
Peilin Zhao, Junzhou Huang
- Abstract要約: 計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。
我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。
NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
- 参考スコア(独自算出の注目度): 95.4514639013144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing effective architectures is one of the key factors behind the
success of deep neural networks. Existing deep architectures are either
manually designed or automatically searched by some Neural Architecture Search
(NAS) methods. However, even a well-designed/searched architecture may still
contain many nonsignificant or redundant modules/operations. Thus, it is
necessary to optimize the operations inside an architecture to improve the
performance without introducing extra computational cost. To this end, we have
proposed a Neural Architecture Transformer (NAT) method which casts the
optimization problem into a Markov Decision Process (MDP) and seeks to replace
the redundant operations with more efficient operations, such as skip or null
connection. Note that NAT only considers a small number of possible transitions
and thus comes with a limited search/transition space. As a result, such a
small search space may hamper the performance of architecture optimization. To
address this issue, we propose a Neural Architecture Transformer++ (NAT++)
method which further enlarges the set of candidate transitions to improve the
performance of architecture optimization. Specifically, we present a two-level
transition rule to obtain valid transitions, i.e., allowing operations to have
more efficient types (e.g., convolution->separable convolution) or smaller
kernel sizes (e.g., 5x5->3x3). Note that different operations may have
different valid transitions. We further propose a Binary-Masked Softmax
(BMSoftmax) layer to omit the possible invalid transitions. Extensive
experiments on several benchmark datasets show that the transformed
architecture significantly outperforms both its original counterpart and the
architectures optimized by existing methods.
- Abstract(参考訳): 効率的なアーキテクチャを設計することは、ディープニューラルネットワークの成功の鍵となる要素のひとつだ。
既存のディープアーキテクチャは、いくつかのneural architecture search (nas)メソッドによって手動で設計または自動的に検索される。
しかし、よく設計された/検索されたアーキテクチャでさえ、多くの無意味または冗長なモジュール/操作を含む可能性がある。
したがって、計算コストを増すことなく性能を向上させるために、アーキテクチャ内の操作を最適化する必要がある。
この目的のために我々は、最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案し、冗長な演算をスキップやヌル接続などのより効率的な演算に置き換えようとしている。
NATは少数の遷移しか考慮しないので、検索/遷移スペースが限られていることに注意してください。
その結果、このような小さな探索空間は、アーキテクチャ最適化の性能を損なう可能性がある。
この問題に対処するために、アーキテクチャ最適化の性能向上のために、候補遷移の集合をさらに拡大するNeural Architecture Transformer++ (NAT++) 手法を提案する。
具体的には、より効率的な型(畳み込み->分離可能な畳み込み)やより小さなカーネルサイズ(例えば5x5->3x3)を持つように、有効なトランジションを得るための2段階のトランジションルールを提案する。
異なる操作は異なる有効な遷移を持つ可能性があることに注意。
さらに、無効な遷移を省略するBinary-Masked Softmax(BMSoftmax)層を提案する。
いくつかのベンチマークデータセットに関する広範な実験は、変換されたアーキテクチャが元のアーキテクチャと既存のメソッドによって最適化されたアーキテクチャの両方を大幅に上回ることを示している。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Learning Interpretable Models Through Multi-Objective Neural
Architecture Search [0.9990687944474739]
本稿では,タスク性能と「イントロスペクタビリティ」の両方を最適化するフレームワークを提案する。
タスクエラーとイントロスペクタビリティを共同で最適化することは、エラー内で実行されるより不整合でデバッグ可能なアーキテクチャをもたらすことを実証する。
論文 参考訳(メタデータ) (2021-12-16T05:50:55Z) - Rethinking Architecture Selection in Differentiable NAS [74.61723678821049]
微分可能なニューラルアーキテクチャ探索は、その探索効率と簡易性において最も人気のあるNAS手法の1つである。
本稿では,各操作がスーパーネットに与える影響を直接測定する摂動に基づくアーキテクチャ選択を提案する。
提案手法により,DARTSの故障モードを大幅に緩和できることがわかった。
論文 参考訳(メタデータ) (2021-08-10T00:53:39Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - Operation Embeddings for Neural Architecture Search [15.033712726016255]
最適化プロセスにおいて、固定演算子エンコーディングを学習可能な表現に置き換えることを提案する。
本手法は,同様の操作とグラフパターンを共有するトップパフォーマンスアーキテクチャを生成する。
論文 参考訳(メタデータ) (2021-05-11T09:17:10Z) - Differentiable Neural Architecture Transformation for Reproducible
Architecture Improvement [3.766702945560518]
再現可能で効率のよい、微分可能なニューラルアーキテクチャ変換を提案する。
CIFAR-10とTiny Imagenetの2つのデータセットに対する大規模な実験により、提案手法はNATよりも確実に優れていることが示された。
論文 参考訳(メタデータ) (2020-06-15T09:03:48Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。