Fugu-MT 論文翻訳(概要): Fcaformer: Forward Cross Attention in Hybrid Vision Transformer

論文の概要: Fcaformer: Forward Cross Attention in Hybrid Vision Transformer

arxiv url: http://arxiv.org/abs/2211.07198v2
Date: Mon, 20 Mar 2023 03:43:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 02:18:39.382734
Title: Fcaformer: Forward Cross Attention in Hybrid Vision Transformer
Title（参考訳）: Fcaformer:ハイブリッドビジョントランスにおける前方交差注意
Authors: Haokui Zhang, Wenze Hu, Xiaoyu Wang
Abstract要約: ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
参考スコア（独自算出の注目度）: 29.09883780571206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Currently, one main research line in designing a more efficient vision transformer is reducing the computational cost of self attention modules by adopting sparse attention or using local attention windows. In contrast, we propose a different approach that aims to improve the performance of transformer-based architectures by densifying the attention pattern. Specifically, we proposed forward cross attention for hybrid vision transformer (FcaFormer), where tokens from previous blocks in the same stage are secondary used. To achieve this, the FcaFormer leverages two innovative components: learnable scale factors (LSFs) and a token merge and enhancement module (TME). The LSFs enable efficient processing of cross tokens, while the TME generates representative cross tokens. By integrating these components, the proposed FcaFormer enhances the interactions of tokens across blocks with potentially different semantics, and encourages more information flows to the lower levels. Based on the forward cross attention (Fca), we have designed a series of FcaFormer models that achieve the best trade-off between model size, computational cost, memory cost, and accuracy. For example, without the need for knowledge distillation to strengthen training, our FcaFormer achieves 83.1% top-1 accuracy on Imagenet with only 16.3 million parameters and about 3.6 billion MACs. This saves almost half of the parameters and a few computational costs while achieving 0.7% higher accuracy compared to distilled EfficientFormer.
Abstract（参考訳）: 現在、より効率的な視覚トランスフォーマーの設計における1つの研究ラインは、わずかな注意を採用するか、あるいは局所注意窓を使用することで、自己注意モジュールの計算コストを削減することである。対照的に、注意パターンを密度化することでトランスフォーマーアーキテクチャの性能を向上させるための異なるアプローチを提案する。具体的には,同一ステージの先行ブロックからのトークンが二次的に使用されるハイブリッドビジョントランスフォーマ(fcaformer)の前方横断注意を提案した。これを実現するためにFcaFormerは,学習可能なスケールファクタ(LSF)とトークンマージと拡張モジュール(TME)という,革新的な2つのコンポーネントを活用している。 LSFはクロストークンの効率的な処理を可能にし、TMEは代表的クロストークンを生成する。これらのコンポーネントを統合することで、提案されたfcaformerは、潜在的に異なるセマンティクスを持つブロック間のトークンのインタラクションを強化し、より低いレベルへの情報フローを促進する。フォワードクロス・アテンション(fca)に基づいて,モデルサイズ,計算コスト,メモリコスト,精度の最適なトレードオフを実現するfcaフォーマーモデルを設計した。例えば、トレーニングを強化するための知識蒸留を必要とせず、FcaFormerは1630万のパラメータと約360億のMACを持つImagenetで83.1%のトップ-1の精度を達成した。これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成する。

関連論文リスト

S2AFormer: Strip Self-Attention for Efficient Vision Transformer [37.930090368513355]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。 SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
論文参考訳（メタデータ） (2025-05-28T10:17:23Z)
Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models [0.0]
最先端のモデルは100以上のトランスフォーマーブロックを持ち、何十億ものトレーニング可能なパラメータを含み、数兆のテキストトークンで訓練される。このようなブロックが少ない3層FFNを持つ変圧器ブロック構成を用いたモデルは、より少ない時間でより少ない総パラメータでトレーニング損失の少ない標準2層構成よりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-10T12:54:21Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-07-09T08:47:13Z)
Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文参考訳（メタデータ） (2024-05-22T17:57:37Z)
Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文参考訳（メタデータ） (2024-04-23T17:26:34Z)
U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文参考訳（メタデータ） (2023-12-11T10:19:42Z)
SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文参考訳（メタデータ） (2023-12-01T08:22:34Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。 ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文参考訳（メタデータ） (2022-04-26T10:00:28Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。