論文の概要: SPFormer: Enhancing Vision Transformer with Superpixel Representation
- arxiv url: http://arxiv.org/abs/2401.02931v1
- Date: Fri, 5 Jan 2024 18:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 14:27:28.024155
- Title: SPFormer: Enhancing Vision Transformer with Superpixel Representation
- Title(参考訳): SPFormer:スーパーピクセル表現によるビジョントランスの強化
- Authors: Jieru Mei, Liang-Chieh Chen, Alan Yuille, Cihang Xie
- Abstract要約: SPFormerは、スーパーピクセル表現によって強化されたビジョントランスフォーマーである。
様々なベンチマークで優れたパフォーマンスを示している。
スーパーピクセル構造は、モデルの内部プロセスにウィンドウを提供する。
- 参考スコア(独自算出の注目度): 36.330499325837486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce SPFormer, a novel Vision Transformer enhanced by
superpixel representation. Addressing the limitations of traditional Vision
Transformers' fixed-size, non-adaptive patch partitioning, SPFormer employs
superpixels that adapt to the image's content. This approach divides the image
into irregular, semantically coherent regions, effectively capturing intricate
details and applicable at both initial and intermediate feature levels.
SPFormer, trainable end-to-end, exhibits superior performance across various
benchmarks. Notably, it exhibits significant improvements on the challenging
ImageNet benchmark, achieving a 1.4% increase over DeiT-T and 1.1% over DeiT-S
respectively. A standout feature of SPFormer is its inherent explainability.
The superpixel structure offers a window into the model's internal processes,
providing valuable insights that enhance the model's interpretability. This
level of clarity significantly improves SPFormer's robustness, particularly in
challenging scenarios such as image rotations and occlusions, demonstrating its
adaptability and resilience.
- Abstract(参考訳): 本稿では,超ピクセル表現による新しい視覚トランスフォーマであるspformerを紹介する。
従来のビジョントランスフォーマーの固定サイズの非適応パッチパーティショニングの限界に対処するために、spformerは画像の内容に適応するスーパーピクセルを使用している。
このアプローチは、イメージを不規則でセマンティックな一貫性のある領域に分割し、複雑な詳細を効果的に捉え、初期特徴レベルと中間特徴レベルの両方に適用する。
トレーニング可能なエンドツーエンドのSPFormerは、さまざまなベンチマークで優れたパフォーマンスを示している。
特に、ImageNetベンチマークでは、DeiT-Tよりも1.4%、DeiT-Sより1.1%向上している。
SPFormerの特長は、その固有の説明性である。
スーパーピクセル構造はモデルの内部プロセスのウィンドウを提供し、モデルの解釈可能性を高める貴重な洞察を提供する。
このレベルの明確さは、SPFormerの堅牢性、特に画像回転や閉塞といった困難なシナリオにおいて、その適応性とレジリエンスを示している。
関連論文リスト
- Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - In2SET: Intra-Inter Similarity Exploiting Transformer for Dual-Camera Compressive Hyperspectral Imaging [23.797554145917665]
In2SET(In-Inter similarity Exploiting Transformer)を導入した新しいDCCHI再構成ネットワークについて紹介する。
本稿では, PAN画像内の相似性を利用して, 元のHSIの相似性を評価することを提案する。
本手法は,再構成画像の空間スペクトルの忠実度と細部を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-20T13:55:25Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - HyperTransformer: A Textural and Spectral Feature Fusion Transformer for
Pansharpening [60.89777029184023]
Pansharpeningは、登録された高分解能パノクロマトグラフィー画像(PAN)と低分解能ハイパースペクトル画像(LR-HSI)を融合して、高スペクトル・空間解像度の高分解能HSIを生成することを目的としている。
既存のパンシャルペン法は、HRテクスチャの特徴をPANからLR-HSIに伝達するアテンション機構を無視し、空間的およびスペクトル的歪みをもたらす。
本稿では, LR-HSI と PAN の特徴をそれぞれ変換器のクエリとキーとして定式化する HyperTransformer という, パンシャーピングのための新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-03-04T18:59:08Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Probabilistic Spatial Transformer Networks [0.6999740786886537]
本稿では、決定論的ではなく、変換を推定する確率的拡張を提案する。
これら2つの特性が,分類性能,ロバスト性,モデル校正性の向上につながることを示す。
さらに、時系列データにおけるモデル性能を改善することにより、非視覚領域へのアプローチが一般化されることを実証する。
論文 参考訳(メタデータ) (2020-04-07T18:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。