論文の概要: Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2207.01580v1
- Date: Mon, 4 Jul 2022 17:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:38:57.005028
- Title: Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks
- Title(参考訳): 効率的な視覚トランスフォーマーと畳み込みニューラルネットワークのための動的空間スパーシフィケーション
- Authors: Yongming Rao, Zuyan Liu, Wenliang Zhao, Jie Zhou, Jiwen Lu
- Abstract要約: 視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
- 参考スコア(独自算出の注目度): 88.77951448313486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new approach for model acceleration by exploiting
spatial sparsity in visual data. We observe that the final prediction in vision
Transformers is only based on a subset of the most informative tokens, which is
sufficient for accurate image recognition. Based on this observation, we
propose a dynamic token sparsification framework to prune redundant tokens
progressively and dynamically based on the input to accelerate vision
Transformers. Specifically, we devise a lightweight prediction module to
estimate the importance score of each token given the current features. The
module is added to different layers to prune redundant tokens hierarchically.
While the framework is inspired by our observation of the sparse attention in
vision Transformers, we find the idea of adaptive and asymmetric computation
can be a general solution for accelerating various architectures. We extend our
method to hierarchical models including CNNs and hierarchical vision
Transformers as well as more complex dense prediction tasks that require
structured feature maps by formulating a more generic dynamic spatial
sparsification framework with progressive sparsification and asymmetric
computation for different spatial locations. By applying lightweight fast paths
to less informative features and using more expressive slow paths to more
important locations, we can maintain the structure of feature maps while
significantly reducing the overall computations. Extensive experiments
demonstrate the effectiveness of our framework on various modern architectures
and different visual recognition tasks. Our results clearly demonstrate that
dynamic spatial sparsification offers a new and more effective dimension for
model acceleration. Code is available at
https://github.com/raoyongming/DynamicViT
- Abstract(参考訳): 本稿では,視覚データの空間的スパーシティを利用した新しいモデル加速度法を提案する。
視覚変換器の最終的な予測は最も情報性の高いトークンのサブセットのみに基づいており、正確な画像認識には十分である。
そこで本研究では,視覚トランスフォーマーを高速化するための入力に基づいて,冗長なトークンを段階的かつ動的にプルーピングするための動的トークンスパーシフィケーションフレームワークを提案する。
具体的には、現在の特徴から各トークンの重要度を推定する軽量な予測モジュールを考案する。
モジュールは異なるレイヤに追加され、冗長トークンを階層的にプルークする。
このフレームワークは視覚トランスフォーマーにおける注意の薄さから着想を得たものであるが、適応的かつ非対称な計算は様々なアーキテクチャを加速するための一般的な解決策であると考えられる。
提案手法は,CNNや階層型視覚変換器などの階層モデルや,より汎用的な動的空間空間空間空間空間空間分割フレームワークを定式化することにより,より複雑な特徴マップを必要とする複雑な予測タスクに拡張する。
より少ない情報的特徴に軽量な高速パスを適用し、より表現力のあるスローパスをより重要な場所に利用することにより、機能マップの構造を維持しながら、全体的な計算を大幅に削減することができる。
様々な現代的なアーキテクチャと異なる視覚認識タスクにおけるフレームワークの有効性を広範な実験により実証した。
その結果、動的空間スパーシフィケーションは、モデル加速に新しくより効果的な次元を提供することが明らかとなった。
コードはhttps://github.com/raoyongming/DynamicViTで入手できる。
関連論文リスト
- Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Todyformer: Towards Holistic Dynamic Graph Transformers with
Structure-Aware Tokenization [6.799413002613627]
Todyformerは、動的グラフに適したトランスフォーマーベースのニューラルネットワークである。
メッセージパッシングニューラルネットワーク(MPNN)のローカルエンコーディング能力とトランスフォーマーのグローバルエンコーディング能力を統合する。
Todyformerは、ダウンストリームタスクの最先端メソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T23:05:30Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Spectral Transform Forms Scalable Transformer [1.19071399645846]
この研究は自己注意の哲学から学び、情報的長距離時間相互作用を用いた効率的なスペクトルベースの神経ユニットを提案する。
開発されたスペクトルウィンドウユニット(SW)モデルは、保証された効率でスケーラブルな動的グラフを予測する。
論文 参考訳(メタデータ) (2021-11-15T08:46:01Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-08-03T09:56:07Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。