論文の概要: AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation
- arxiv url: http://arxiv.org/abs/2411.04967v1
- Date: Thu, 07 Nov 2024 18:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:35.351718
- Title: AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation
- Title(参考訳): AsCAN: 効率的な認識・生成のための非対称畳み込み型ネットワーク
- Authors: Anil Kag, Huseyin Coskun, Jierun Chen, Junli Cao, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Jian Ren,
- Abstract要約: 本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 48.82264764771652
- License:
- Abstract: Neural network architecture design requires making many crucial decisions. The common desiderata is that similar decisions, with little modifications, can be reused in a variety of tasks and applications. To satisfy that, architectures must provide promising latency and performance trade-offs, support a variety of tasks, scale efficiently with respect to the amounts of data and compute, leverage available data from other tasks, and efficiently support various hardware. To this end, we introduce AsCAN -- a hybrid architecture, combining both convolutional and transformer blocks. We revisit the key design principles of hybrid architectures and propose a simple and effective \emph{asymmetric} architecture, where the distribution of convolutional and transformer blocks is \emph{asymmetric}, containing more convolutional blocks in the earlier stages, followed by more transformer blocks in later stages. AsCAN supports a variety of tasks: recognition, segmentation, class-conditional image generation, and features a superior trade-off between performance and latency. We then scale the same architecture to solve a large-scale text-to-image task and show state-of-the-art performance compared to the most recent public and commercial models. Notably, even without any computation optimization for transformer blocks, our models still yield faster inference speed than existing works featuring efficient attention mechanisms, highlighting the advantages and the value of our approach.
- Abstract(参考訳): ニューラルネットワークアーキテクチャ設計は、多くの決定を下す必要がある。
一般的なデシダータは、同様の決定は、ほとんど変更することなく、様々なタスクやアプリケーションで再利用できるということである。
それを満たすためには、アーキテクチャは有望なレイテンシとパフォーマンスのトレードオフを提供し、さまざまなタスクをサポートし、データと計算量に関して効率的にスケールし、他のタスクから利用可能なデータを活用し、さまざまなハードウェアを効率的にサポートする必要がある。
この目的のために,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを導入する。
ハイブリッドアーキテクチャの鍵となる設計原理を再検討し、畳み込みブロックと変圧器ブロックの分布がより大きい畳み込みブロックを含む、単純で効果的な「emph{asymmetric}」アーキテクチャを提案する。
AsCANは、認識、セグメンテーション、クラス条件の画像生成など、さまざまなタスクをサポートし、パフォーマンスとレイテンシのトレードオフが優れている。
次に、同じアーキテクチャをスケールして、最新のパブリックモデルや商用モデルと比較して、大規模なテキスト・ツー・イメージタスクを解決し、最先端のパフォーマンスを示す。
特に、トランスブロックの計算最適化がなくても、我々のモデルは、効率的な注意機構を備え、我々のアプローチの利点と価値を強調しながら、既存の作業よりも高速な推論速度が得られる。
関連論文リスト
- Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation [0.0]
ビジョントランスフォーマーとU-Netアーキテクチャは拡散モデルの実装において広く採用されている。
固定サイズ再利用可能なトランスブロックをコア構造として利用するアーキテクチャを提案する。
私たちのアーキテクチャの特徴は、複雑さの低い、トークンのない設計、位置埋め込みの欠如、均一性、スケーラビリティです。
論文 参考訳(メタデータ) (2024-11-09T08:58:57Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - Operation Embeddings for Neural Architecture Search [15.033712726016255]
最適化プロセスにおいて、固定演算子エンコーディングを学習可能な表現に置き換えることを提案する。
本手法は,同様の操作とグラフパターンを共有するトップパフォーマンスアーキテクチャを生成する。
論文 参考訳(メタデータ) (2021-05-11T09:17:10Z) - Towards Accurate and Compact Architectures via Neural Architecture
Transformer [95.4514639013144]
計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。
我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。
NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
論文 参考訳(メタデータ) (2021-02-20T09:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。