論文の概要: SparseSwin: Swin Transformer with Sparse Transformer Block
- arxiv url: http://arxiv.org/abs/2309.05224v1
- Date: Mon, 11 Sep 2023 04:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 13:47:13.882018
- Title: SparseSwin: Swin Transformer with Sparse Transformer Block
- Title(参考訳): SparseSwin: スパース変圧器ブロック付きスイニング変圧器
- Authors: Krisna Pinasthika, Blessius Sheldo Putra Laksono, Riyandi Banovbi
Putera Irsal, Syifa Hukma Shabiyya, Novanto Yudistira
- Abstract要約: 本稿では,パラメータ数を削減し,変換器をより効率的にすることを目的とする。
Sparse Transformer (SparTa) Block は,スパーストークンコンバータを付加した改良型トランスブロックである。
提案されたSparseSwinモデルは、イメージNet100、CIFAR10、CIFAR100のデータセットでそれぞれ86.96%、97.43%、85.35%の精度で、画像分類における他の技術モデルよりも優れている。
- 参考スコア(独自算出の注目度): 1.7243216387069678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in computer vision research have put transformer architecture as
the state of the art in computer vision tasks. One of the known drawbacks of
the transformer architecture is the high number of parameters, this can lead to
a more complex and inefficient algorithm. This paper aims to reduce the number
of parameters and in turn, made the transformer more efficient. We present
Sparse Transformer (SparTa) Block, a modified transformer block with an
addition of a sparse token converter that reduces the number of tokens used. We
use the SparTa Block inside the Swin T architecture (SparseSwin) to leverage
Swin capability to downsample its input and reduce the number of initial tokens
to be calculated. The proposed SparseSwin model outperforms other state of the
art models in image classification with an accuracy of 86.96%, 97.43%, and
85.35% on the ImageNet100, CIFAR10, and CIFAR100 datasets respectively. Despite
its fewer parameters, the result highlights the potential of a transformer
architecture using a sparse token converter with a limited number of tokens to
optimize the use of the transformer and improve its performance.
- Abstract(参考訳): コンピュータビジョン研究の進歩は、トランスフォーマーアーキテクチャをコンピュータビジョンタスクの最先端技術として位置づけている。
トランスフォーマーアーキテクチャの既知の欠点の1つはパラメータの多さであり、これはより複雑で非効率なアルゴリズムにつながる可能性がある。
本稿では, パラメータ数を削減し, 変圧器の効率を向上させることを目的とする。
Sparse Transformer (SparTa) Block(Sparse Transformer, SparTa)は, 使用トークン数を削減したスパーストークンコンバータを付加した改良型トランスブロックである。
Swin Tアーキテクチャ(SparseSwin)内のSparTaブロックを使用して、Swarnの機能を活用して入力をダウンサンプルし、計算する初期トークンの数を削減します。
提案されたSparseSwinモデルは、イメージNet100、CIFAR10、CIFAR100データセットでそれぞれ86.96%、97.43%、85.35%の精度で、画像分類における他の技術モデルよりも優れている。
パラメータは少ないが、この結果はトランスフォーマーの使用を最適化し、パフォーマンスを向上させるために、限られた数のトークンを持つスパーストークンコンバータを使用したトランスフォーマーアーキテクチャの可能性を強調している。
関連論文リスト
- Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - ATS: Adaptive Token Sampling For Efficient Vision Transformers [33.297806854292155]
本稿では,パラメータフリーな適応トークンサンプリング(ATS)モジュールを導入し,既存の視覚トランスフォーマアーキテクチャにプラグインすることができる。
ATSは、重要なトークンをスコアリングし、適応的にサンプリングすることで、視覚変換器の強化を行う。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOPs)を37%削減し,最先端技術の向上を図っている。
論文 参考訳(メタデータ) (2021-11-30T18:56:57Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文 参考訳(メタデータ) (2021-02-27T03:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。