論文の概要: CoAtNet: Marrying Convolution and Attention for All Data Sizes
- arxiv url: http://arxiv.org/abs/2106.04803v1
- Date: Wed, 9 Jun 2021 04:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:20:26.882865
- Title: CoAtNet: Marrying Convolution and Attention for All Data Sizes
- Title(参考訳): CoAtNet: すべてのデータサイズに対するコンボリューションとアテンションの結婚
- Authors: Zihang Dai, Hanxiao Liu, Quoc V. Le, Mingxing Tan
- Abstract要約: トランスフォーマーはモデル容量が大きくなる傾向にあるが、正しい帰納バイアスの欠如により、畳み込みネットワークよりも一般化が悪くなる可能性がある。
2つの重要な洞察から構築されたハイブリッドモデルのファミリーであるCoAtNetsを紹介します。
実験により、我々のCoAtNetsはリソース制約の異なる最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 93.93381069705546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have attracted increasing interests in computer vision, but they
still fall behind state-of-the-art convolutional networks. In this work, we
show that while Transformers tend to have larger model capacity, their
generalization can be worse than convolutional networks due to the lack of the
right inductive bias. To effectively combine the strengths from both
architectures, we present CoAtNets(pronounced "coat" nets), a family of hybrid
models built from two key insights:(1) depthwise Convolution and self-Attention
can be naturally unified via simple relative attention; (2) vertically stacking
convolution layers and attention layers in a principled way is surprisingly
effective in improving generalization, capacity and efficiency. Experiments
show that our CoAtNets achieve state-of-the-art performance under different
resource constraints across various datasets. For example, CoAtNet achieves
86.0% ImageNet top-1 accuracy without extra data, and 89.77% with extra JFT
data, outperforming prior arts of both convolutional networks and Transformers.
Notably, when pre-trained with 13M images fromImageNet-21K, our CoAtNet
achieves 88.56% top-1 accuracy, matching ViT-huge pre-trained with 300M images
from JFT while using 23x less data.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンへの関心が高まっているが、いまだに最先端の畳み込みネットワークに遅れをとっている。
本研究では,トランスフォーマーはモデルキャパシティが大きくなる傾向にあるが,正しい帰納バイアスの欠如により,畳み込みネットワークよりも一般化が悪くなることを示した。
両アーキテクチャの強みを効果的に結合するために,(1)奥行き方向の畳み込みと自己愛着は,単純な相対的注意によって自然に統一できる,(2)垂直に畳み込み層と注意層を原則的に積み重ねる,という2つの重要な洞察から構築されたハイブリッドモデルであるcoatnets(「コートネット」と発音する)を提案する。
実験の結果、CoAtNetはさまざまなデータセットにまたがる異なるリソース制約の下で最先端のパフォーマンスを実現していることがわかった。
例えば、CoAtNetは86.0%のImageNet Top-1精度を余分なデータなしで達成し、89.77%が追加のJFTデータを使用し、畳み込みネットワークとトランスフォーマーの両方の先行技術を上回っている。
特に、ImageNet-21Kから13Mの画像で事前トレーニングされた場合、CoAtNetは88.56%のトップ-1の精度を達成し、23倍少ないデータを使用しながら、JFTから3Mの画像で事前トレーニングされたViT-hugeと一致する。
関連論文リスト
- FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Grafting Vision Transformers [42.71480918208436]
ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
論文 参考訳(メタデータ) (2022-10-28T07:07:13Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。