論文の概要: Searching Intrinsic Dimensions of Vision Transformers
- arxiv url: http://arxiv.org/abs/2204.07722v1
- Date: Sat, 16 Apr 2022 05:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 14:03:23.492155
- Title: Searching Intrinsic Dimensions of Vision Transformers
- Title(参考訳): 視覚変換器の固有次元探索
- Authors: Fanghui Xue, Biao Yang, Yingyong Qi and Jack Xin
- Abstract要約: 我々は,物体検出などの複雑な視覚タスクに対して,視覚変換器のバックボーンを刈り取る方法であるSiDTを提案する。
CIFAR-100とCOCOデータセットの実験は、刈り取られた20%または40%の次元/パラメータを持つバックボーンが、未刈取モデルと同じような、あるいはそれ以上のパフォーマンスを持つことを示した。
- 参考スコア(独自算出の注目度): 6.004704152622424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been shown by many researchers that transformers perform as well as
convolutional neural networks in many computer vision tasks. Meanwhile, the
large computational costs of its attention module hinder further studies and
applications on edge devices. Some pruning methods have been developed to
construct efficient vision transformers, but most of them have considered image
classification tasks only. Inspired by these results, we propose SiDT, a method
for pruning vision transformer backbones on more complicated vision tasks like
object detection, based on the search of transformer dimensions. Experiments on
CIFAR-100 and COCO datasets show that the backbones with 20\% or 40\%
dimensions/parameters pruned can have similar or even better performance than
the unpruned models. Moreover, we have also provided the complexity analysis
and comparisons with the previous pruning methods.
- Abstract(参考訳): 多くの研究者が、トランスフォーマーは多くのコンピュータビジョンタスクにおいて畳み込みニューラルネットワークと同様に機能することを示した。
一方、注目モジュールの大きな計算コストは、エッジデバイスに関するさらなる研究や応用を妨げる。
効率的な視覚トランスフォーマーを構築するためにいくつかのプルーニング法が開発されているが、そのほとんどは画像分類タスクのみを考慮している。
これらの結果にインスパイアされたSiDTは, 物体検出などの複雑な視覚タスクに対して, トランスフォーマー次元の探索に基づいて, バックボーンを切断する手法である。
CIFAR-100とCOCOデータセットの実験では、刈り取られた20\%または40\%の寸法/パラメータのバックボーンは、未刈取モデルと同等またはそれ以上の性能を持つ。
さらに, 従来のプルーニング法と比較して, 複雑度解析と比較を行った。
関連論文リスト
- Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,自己教師型事前学習型変圧器のディープフェイク検出への応用について検討する。
我々は、特にトレーニングデータに制限がある場合に、それらの一般化を改善する可能性に焦点を当てる。
本稿では,タスクに対する適応性と,アテンション機構による検出結果の自然な説明性について考察する。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。