論文の概要: VORTEX: Challenging CNNs at Texture Recognition by using Vision Transformers with Orderless and Randomized Token Encodings
- arxiv url: http://arxiv.org/abs/2503.06368v1
- Date: Sun, 09 Mar 2025 00:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:06.276268
- Title: VORTEX: Challenging CNNs at Texture Recognition by using Vision Transformers with Orderless and Randomized Token Encodings
- Title(参考訳): VORTEX:無秩序かつランダムなトークン符号化を用いた視覚変換器によるテクスチャ認識におけるCNNの対応
- Authors: Leonardo Scabini, Kallil M. Zielinski, Emir Konuk, Ricardo T. Fares, Lucas C. Ribas, Kevin Smith, Odemir M. Bruno,
- Abstract要約: 視覚変換器(ViT)は数年前に導入されたが、そのテクスチャ認識能力についてはほとんど知られていない。
テクスチャ解析にViTを効果的に活用するVORTEXを提案する。
VORTEXを9つの多様なテクスチャデータセット上で評価し、SOTAの性能を達成または超越する能力を実証した。
- 参考スコア(独自算出の注目度): 1.6594406786473057
- License:
- Abstract: Texture recognition has recently been dominated by ImageNet-pre-trained deep Convolutional Neural Networks (CNNs), with specialized modifications and feature engineering required to achieve state-of-the-art (SOTA) performance. However, although Vision Transformers (ViTs) were introduced a few years ago, little is known about their texture recognition ability. Therefore, in this work, we introduce VORTEX (ViTs with Orderless and Randomized Token Encodings for Texture Recognition), a novel method that enables the effective use of ViTs for texture analysis. VORTEX extracts multi-depth token embeddings from pre-trained ViT backbones and employs a lightweight module to aggregate hierarchical features and perform orderless encoding, obtaining a better image representation for texture recognition tasks. This approach allows seamless integration with any ViT with the common transformer architecture. Moreover, no fine-tuning of the backbone is performed, since they are used only as frozen feature extractors, and the features are fed to a linear SVM. We evaluate VORTEX on nine diverse texture datasets, demonstrating its ability to achieve or surpass SOTA performance in a variety of texture analysis scenarios. By bridging the gap between texture recognition with CNNs and transformer-based architectures, VORTEX paves the way for adopting emerging transformer foundation models. Furthermore, VORTEX demonstrates robust computational efficiency when coupled with ViT backbones compared to CNNs with similar costs. The method implementation and experimental scripts are publicly available in our online repository.
- Abstract(参考訳): テクスチャ認識は、最近、ImageNet-pre-trained Deep Convolutional Neural Networks (CNN)によって支配されている。
しかし、視覚変換器(ViT)は数年前に導入されたが、そのテクスチャ認識能力についてはほとんど知られていない。
そこで本研究では,テクスチャ解析に ViT を効果的に活用する新しい手法であるVORTEX (ViTs with Orderless and Randomized Token Encodings for Texture Recognition) を導入する。
VORTEXは、事前訓練されたViTバックボーンからマルチディープストークンの埋め込みを抽出し、軽量モジュールを使用して階層的な特徴を集約し、秩序のないエンコーディングを行い、テクスチャ認識タスクのためのより良い画像表現を得る。
このアプローチは、共通のトランスフォーマーアーキテクチャと任意のViTとのシームレスな統合を可能にする。
さらに、凍結した特徴抽出器としてのみ使用されるため、バックボーンの微調整は行わず、特徴を線形SVMに供給する。
9つの異なるテクスチャデータセット上でVORTEXを評価し、様々なテクスチャ分析シナリオにおいて、SOTAの性能を達成または超越する能力を実証した。
テクスチャ認識とCNNとトランスフォーマーベースのアーキテクチャのギャップを埋めることによって、VORTEXは、新たなトランスフォーマー基盤モデルを採用するための道を開く。
さらに、VORTEXは、同様のコストのCNNと比較して、ViTバックボーンと組み合わせた場合、堅牢な計算効率を示す。
メソッドの実装と試験的なスクリプトは、私たちのオンラインリポジトリで公開されています。
関連論文リスト
- Texture Image Synthesis Using Spatial GAN Based on Vision Transformers [1.6482333106552793]
本研究では,視覚変換器(ViT)と空間生成支援ネットワーク(SGAN)を融合した新しいハイブリッドモデルViT-SGANを提案する。
平均分散(mu, sigma)やテクソンなどの特殊テクスチャ記述子をViTの自己保持機構に組み込むことで, 優れたテクスチャ合成を実現する。
論文 参考訳(メタデータ) (2025-02-03T21:39:30Z) - HTR-VT: Handwritten Text Recognition with Vision Transformer [7.997204893256558]
手書き文字認識における視覚変換器(ViT)の適用について検討する。
以前のトランスフォーマーベースのモデルでは、外部データや大規模なデータセットの広範な事前トレーニングが必要だった。
元のパッチ埋め込みの代わりに特徴抽出にConAwareal Neural Network(CNN)を導入し,シャープネス最小化(SAM)エンコーダを用いることで,モデルがフラットなミニマに向けて収束することを保証している。
論文 参考訳(メタデータ) (2024-09-13T06:46:23Z) - Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [15.647035299476894]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。
このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。
これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-29T20:26:27Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。