論文の概要: Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing
- arxiv url: http://arxiv.org/abs/2404.13434v1
- Date: Sat, 20 Apr 2024 17:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:00:27.527726
- Title: Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing
- Title(参考訳): Nested-TNT:マルチスケール特徴処理を備えた階層型視覚変換器
- Authors: Yuang Liu, Zhiheng Qiu, Xiaokai Qin,
- Abstract要約: トランスフォーマーは、自然言語処理における優れた性能のため、コンピュータビジョンの分野で応用されている。
本稿ではネストアルゴリズムを導入し,Nested-TNTを画像分類タスクに適用する。
この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
- 参考スコア(独自算出の注目度): 7.202931445597172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer has been applied in the field of computer vision due to its excellent performance in natural language processing, surpassing traditional convolutional neural networks and achieving new state-of-the-art. ViT divides an image into several local patches, known as "visual sentences". However, the information contained in the image is vast and complex, and focusing only on the features at the "visual sentence" level is not enough. The features between local patches should also be taken into consideration. In order to achieve further improvement, the TNT model is proposed, whose algorithm further divides the image into smaller patches, namely "visual words," achieving more accurate results. The core of Transformer is the Multi-Head Attention mechanism, and traditional attention mechanisms ignore interactions across different attention heads. In order to reduce redundancy and improve utilization, we introduce the nested algorithm and apply the Nested-TNT to image classification tasks. The experiment confirms that the proposed model has achieved better classification performance over ViT and TNT, exceeding 2.25%, 1.1% on dataset CIFAR10 and 2.78%, 0.25% on dataset FLOWERS102 respectively.
- Abstract(参考訳): トランスフォーマーは、自然言語処理における優れた性能、従来の畳み込みニューラルネットワークを超え、新しい最先端技術を達成するため、コンピュータビジョンの分野で応用されている。
ViTは画像を「視覚文」と呼ばれるいくつかの局所的なパッチに分割する。
しかし、画像に含まれる情報は巨大で複雑であり、「視覚文」レベルでのみ特徴に焦点を当てるだけでは不十分である。
ローカルパッチ間の機能についても考慮する必要がある。
さらに改良するために,TNTモデルを提案し,そのアルゴリズムにより,より正確な結果が得られるように,より小さなパッチ,すなわち視覚的単語に分割する。
Transformerの中核はマルチヘッドアテンション機構であり、従来のアテンションメカニズムは異なるアテンションヘッド間のインタラクションを無視している。
冗長性を低減し、利用率を向上させるため、ネストアルゴリズムを導入し、画像分類タスクにNested-TNTを適用した。
この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
関連論文リスト
- Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Data Augmentation Vision Transformer for Fine-grained Image
Classification [1.6211899643913996]
本稿では,データ拡張に基づくデータ拡張ビジョントランス (DAVT) を提案する。
また,階層的注意選択(HAS)手法を提案し,学習レベル間の識別マーカーの識別能力を向上させる。
実験結果から,CUB-200-2011とStanford Dogsの2つの一般データセットにおける本手法の精度は,従来の主流手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-23T11:34:11Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。