Fugu-MT 論文翻訳(概要): CabViT: Cross Attention among Blocks for Vision Transformer

論文の概要: CabViT: Cross Attention among Blocks for Vision Transformer

arxiv url: http://arxiv.org/abs/2211.07198v1
Date: Mon, 14 Nov 2022 08:43:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 18:32:18.375011
Title: CabViT: Cross Attention among Blocks for Vision Transformer
Title（参考訳）: CabViT:Vision Transformerのブロック間のクロスアテンション
Authors: Haokui Zhang, Wenze Hu, Xiaoyu Wang
Abstract要約: 本稿では,注目パターンの強化による高性能トランスフォーマーアーキテクチャの設計を提案する。具体的には、変換器のマルチヘッドアテンションへの追加入力として、前回のブロックからのトークンを使用するViT(CabViT)のブロック間でのクロスアテンションを提案する。提案したCabViTに基づいて,モデルサイズ,計算コスト,精度の最良のトレードオフを実現する一連のCabViTモデルを設計する。
参考スコア（独自算出の注目度）: 29.09883780571206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since the vision transformer (ViT) has achieved impressive performance in image classification, an increasing number of researchers pay their attentions to designing more efficient vision transformer models. A general research line is reducing computational cost of self attention modules by adopting sparse attention or using local attention windows. In contrast, we propose to design high performance transformer based architectures by densifying the attention pattern. Specifically, we propose cross attention among blocks of ViT (CabViT), which uses tokens from previous blocks in the same stage as extra input to the multi-head attention of transformers. The proposed CabViT enhances the interactions of tokens across blocks with potentially different semantics, and encourages more information flows to the lower levels, which together improves model performance and model convergence with limited extra cost. Based on the proposed CabViT, we design a series of CabViT models which achieve the best trade-off between model size, computational cost and accuracy. For instance without the need of knowledge distillation to strength the training, CabViT achieves 83.0% top-1 accuracy on Imagenet with only 16.3 million parameters and about 3.9G FLOPs, saving almost half parameters and 13% computational cost while gaining 0.9% higher accuracy compared with ConvNext, use 52% of parameters but gaining 0.6% accuracy compared with distilled EfficientFormer
Abstract（参考訳）: 視覚トランスフォーマー (vit) は画像分類において素晴らしい性能を発揮したため、より効率的な視覚トランスフォーマーの設計に注目する研究者が増えている。一般研究ラインでは,注意の疎化や局所注意窓の利用により,自己注意モジュールの計算コストを削減している。これとは対照的に,注目パターンの強化による高性能トランスフォーマーアーキテクチャの設計を提案する。具体的には、変換器のマルチヘッドアテンションへの追加入力として、前回のブロックからのトークンを使用するViT(CabViT)のブロック間でのクロスアテンションを提案する。提案したCabViTは、潜在的に異なるセマンティクスを持つブロック間のトークン間の相互作用を強化し、より低いレベルへの情報フローを促進する。提案したCabViTに基づいて,モデルサイズ,計算コスト,精度の最良のトレードオフを実現する一連のCabViTモデルを設計する。例えば、トレーニングの強化に知識蒸留を必要とせず、カビットは16.3百万のパラメータと約3.9gのフロップを持つimagenetで83.0%のtop-1精度を達成し、ほぼ半分のパラメータと13%の計算コストを節約し、convnextよりも0.1%高い精度を得られる一方で、52%のパラメータを使用するが、蒸留効率向上機に比べて0.6%の精度を得られる。

関連論文リスト

S2AFormer: Strip Self-Attention for Efficient Vision Transformer [37.930090368513355]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。 SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
論文参考訳（メタデータ） (2025-05-28T10:17:23Z)
Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models [0.0]
最先端のモデルは100以上のトランスフォーマーブロックを持ち、何十億ものトレーニング可能なパラメータを含み、数兆のテキストトークンで訓練される。このようなブロックが少ない3層FFNを持つ変圧器ブロック構成を用いたモデルは、より少ない時間でより少ない総パラメータでトレーニング損失の少ない標準2層構成よりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-10T12:54:21Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-07-09T08:47:13Z)
Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文参考訳（メタデータ） (2024-05-22T17:57:37Z)
Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文参考訳（メタデータ） (2024-04-23T17:26:34Z)
U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文参考訳（メタデータ） (2023-12-11T10:19:42Z)
SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文参考訳（メタデータ） (2023-12-01T08:22:34Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。 ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文参考訳（メタデータ） (2022-04-26T10:00:28Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。