論文の概要: Searching for TrioNet: Combining Convolution with Local and Global
Self-Attention
- arxiv url: http://arxiv.org/abs/2111.07547v1
- Date: Mon, 15 Nov 2021 05:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:15:04.089123
- Title: Searching for TrioNet: Combining Convolution with Local and Global
Self-Attention
- Title(参考訳): TrioNetの検索: 畳み込みと局所的・グローバル的自己意識の組み合わせ
- Authors: Huaijin Pi, Huiyu Wang, Yingwei Li, Zizhang Li, Alan Yuille
- Abstract要約: コンボリューション,局所自己アテンション,グローバル(軸)自己アテンション演算子を組み合わせたTrioNetを提案する。
当社のTrioNetは,イメージネット分類におけるFLOPの少ないスタンドアローンモデルにおいて,コンボリューションよりも自己意識の方が優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 7.889707829790681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-attention operators have shown superior performance as a
stand-alone building block for vision models. However, existing self-attention
models are often hand-designed, modified from CNNs, and obtained by stacking
one operator only. A wider range of architecture space which combines different
self-attention operators and convolution is rarely explored. In this paper, we
explore this novel architecture space with weight-sharing Neural Architecture
Search (NAS) algorithms. The result architecture is named TrioNet for combining
convolution, local self-attention, and global (axial) self-attention operators.
In order to effectively search in this huge architecture space, we propose
Hierarchical Sampling for better training of the supernet. In addition, we
propose a novel weight-sharing strategy, Multi-head Sharing, specifically for
multi-head self-attention operators. Our searched TrioNet that combines
self-attention and convolution outperforms all stand-alone models with fewer
FLOPs on ImageNet classification where self-attention performs better than
convolution. Furthermore, on various small datasets, we observe inferior
performance for self-attention models, but our TrioNet is still able to match
the best operator, convolution in this case. Our code is available at
https://github.com/phj128/TrioNet.
- Abstract(参考訳): 近年,視覚モデルのためのスタンドアロンビルディングブロックとして,自己注意演算子の性能が向上している。
しかし、既存のセルフアテンションモデルはしばしば手動で設計され、cnnから修正され、1つの演算子のみを積み重ねることで得られる。
異なる自己アテンション演算子と畳み込みを組み合わせたより広い範囲のアーキテクチャ空間を探索することは稀である。
本稿では,重み付きニューラルアーキテクチャサーチ(NAS)アルゴリズムを用いて,この新しいアーキテクチャ空間を探索する。
結果アーキテクチャは、畳み込み、局所自己アテンション、グローバル(軸)自己アテンション演算子を組み合わせたTrioNetと名付けられた。
この巨大なアーキテクチャ空間を効果的に探索するために、スーパーネットのトレーニングを改善するために階層サンプリングを提案する。
さらに,新しい重み共有戦略であるマルチヘッドシェアリング,特にマルチヘッドセルフアテンション演算子を提案する。
自己アテンションと畳み込みを組み合わせた検索トリオネットは,イメージネット分類において,畳み込みよりも自己アテンションが優れたフラップが少なく,すべてのスタンドアロンモデルを上回る。
さらに,様々な小規模データセットにおいて,自己着脱モデルの劣る性能を観測するが,この場合の畳み込みにより,我々のトライオネットはいまだに最良の演算子にマッチする。
私たちのコードはhttps://github.com/phj128/trionetで利用可能です。
関連論文リスト
- DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - EscherNet: A Generative Model for Scalable View Synthesis [51.27302796214867]
EscherNetはビュー合成のための多視点条件拡散モデルである。
単一のコンシューマグレードGPU上で、100以上の一貫性のあるターゲットビューを同時に生成することができる。
EscherNetはシングルイメージとマルチイメージの3D再構成を統一し、これらの多様なタスクを単一の凝集性フレームワークに統合する。
論文 参考訳(メタデータ) (2024-02-06T11:21:58Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Small but Mighty: Enhancing 3D Point Clouds Semantic Segmentation with
U-Next Framework [7.9395601503353825]
我々は,ポイントクラウドセマンティックセマンティックセグメンテーション用に設計された,小さいが強力なフレームワークであるU-Nextを提案する。
U-Nextは複数のU-Net$L1$コーデックをネストして密に配置し、セマンティックギャップを最小限に抑えることで構築します。
S3DIS、Tronto3D、SensatUrbanの3つの大規模ベンチマークで実施された大規模な実験は、提案したU-Nextアーキテクチャの優位性と有効性を示している。
論文 参考訳(メタデータ) (2023-04-03T06:59:08Z) - Lite-Mono: A Lightweight CNN and Transformer Architecture for
Self-Supervised Monocular Depth Estimation [9.967643080731683]
CNNとトランスフォーマーの効率的な組み合わせについて検討し,Lite-Monoのハイブリッドアーキテクチャを設計する。
完全なモデルはMonodepth2よりも精度が高く、トレーニング可能なパラメータが約80%少ない。
論文 参考訳(メタデータ) (2022-11-23T18:43:41Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Landmark Regularization: Ranking Guided Super-Net Training in Neural
Architecture Search [70.57382341642418]
重量共有は、コモディティハードウェア上での検索を可能にするため、ニューラルネットワークアーキテクチャ検索のデファクトスタンダードとなっています。
近年の研究では、スタンドアロンアーキテクチャのパフォーマンスと対応する共有重み付きネットワークのパフォーマンスのランキング障害が実証されている。
本稿では,共有重みネットワークの性能ランキングとスタンドアロンアーキテクチャのパフォーマンスランキングの相関を最大化することを目的とした正規化用語を提案する。
論文 参考訳(メタデータ) (2021-04-12T09:32:33Z) - One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search
Space Shrinking [97.60915598958968]
本稿では,この2つの課題に対処するワンショットニューラルアンサンブルアーキテクチャサーチ(NEAS)ソリューションを提案する。
最初の課題として,探索空間の縮小を導くために,多様性に基づく新しい指標を導入する。
第2の課題として,異なるモデル間の階層共有を効率向上のために学習する新たな探索次元を実現する。
論文 参考訳(メタデータ) (2021-04-01T16:29:49Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。