論文の概要: Aggregating Global Features into Local Vision Transformer
- arxiv url: http://arxiv.org/abs/2201.12903v1
- Date: Sun, 30 Jan 2022 19:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 17:01:46.209590
- Title: Aggregating Global Features into Local Vision Transformer
- Title(参考訳): グローバル機能をローカルビジョントランスフォーマーに集約する
- Authors: Krushi Patel, Andres M. Bur, Fengjun Li, Guanghui Wang
- Abstract要約: 局所変換器に基づく分類モデルは,比較的計算コストの低い有望な結果を得た。
本研究は, 局所窓型変圧器における多分解能重畳重畳重畳重畳加群 (MOA) の適用結果について検討した。
提案したMOAは、キーに少し大きく重なり合うパッチを用いて、近隣の画素情報伝送を可能にし、性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 20.174762373916415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local Transformer-based classification models have recently achieved
promising results with relatively low computational costs. However, the effect
of aggregating spatial global information of local Transformer-based
architecture is not clear. This work investigates the outcome of applying a
global attention-based module named multi-resolution overlapped attention (MOA)
in the local window-based transformer after each stage. The proposed MOA
employs slightly larger and overlapped patches in the key to enable
neighborhood pixel information transmission, which leads to significant
performance gain. In addition, we thoroughly investigate the effect of the
dimension of essential architecture components through extensive experiments
and discover an optimum architecture design. Extensive experimental results
CIFAR-10, CIFAR-100, and ImageNet-1K datasets demonstrate that the proposed
approach outperforms previous vision Transformers with a comparatively fewer
number of parameters.
- Abstract(参考訳): 局所変換器に基づく分類モデルは,比較的計算コストの低い有望な結果を得た。
しかし,ローカルトランスフォーマーアーキテクチャにおける空間的グローバル情報の集約効果は明らかでない。
本研究は, 局所窓型変圧器における多分解能重畳重畳重畳重畳加群 (MOA) の適用結果について検討した。
提案したMOAは、キーに少し大きく重なり合うパッチを用いて、近隣の画素情報伝送を可能にし、性能が大幅に向上する。
また,本質的なアーキテクチャ要素の寸法の影響を広範囲な実験により徹底的に検討し,最適なアーキテクチャ設計を見出した。
広範な実験結果 cifar-10, cifar-100, imagenet-1k データセットは,提案手法が従来の視覚トランスフォーマーよりも少ないパラメータで優れていることを示している。
関連論文リスト
- HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer [5.96521715927858]
HiFiSegは、高周波情報処理を強化する、大腸ポリープセグメンテーションのための新しいネットワークである。
GLIMは並列構造を用いてグローバルおよびローカル情報を複数のスケールで融合し、より微細な特徴を効果的にキャプチャする。
SAMは、高レベルの特徴からのセマンティック情報と低レベルの特徴から境界の詳細を選択的に統合し、ポリープを正確に検出し、セグメント化するモデルの能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-03T14:36:22Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。