論文の概要: Life Regression based Patch Slimming for Vision Transformers
- arxiv url: http://arxiv.org/abs/2304.04926v1
- Date: Tue, 11 Apr 2023 01:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 16:26:53.055602
- Title: Life Regression based Patch Slimming for Vision Transformers
- Title(参考訳): ライフレグレッションに基づく視覚トランスフォーマーのパッチスリム化
- Authors: Jiawei Chen, Lin Chen, Jiang Yang, Tianqi Shi, Lechao Cheng, Zunlei
Feng, Mingli Song
- Abstract要約: この問題に対処するいくつかの手法が提案されている。
本稿では,各画像パッチの寿命を1回で決定するライフレグレッションモジュールを提案する。
提案手法は, 競合性能を維持しつつ, 推論速度を向上させるために, 複数層での計算やパラメータの追加を回避する。
- 参考スコア(独自算出の注目度): 35.63691293935569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have achieved remarkable success in computer vision tasks
by using multi-head self-attention modules to capture long-range dependencies
within images. However, the high inference computation cost poses a new
challenge. Several methods have been proposed to address this problem, mainly
by slimming patches. In the inference stage, these methods classify patches
into two classes, one to keep and the other to discard in multiple layers. This
approach results in additional computation at every layer where patches are
discarded, which hinders inference acceleration.
In this study, we tackle the patch slimming problem from a different
perspective by proposing a life regression module that determines the lifespan
of each image patch in one go. During inference, the patch is discarded once
the current layer index exceeds its life. Our proposed method avoids additional
computation and parameters in multiple layers to enhance inference speed while
maintaining competitive performance. Additionally, our approach requires fewer
training epochs than other patch slimming methods.
- Abstract(参考訳): ビジョントランスフォーマーは、画像内の長距離依存関係をキャプチャするためにマルチヘッド自己アテンションモジュールを使用することで、コンピュータビジョンタスクにおいて顕著な成功を収めた。
しかし、高い推論計算コストは新たな課題をもたらす。
この問題に対処するいくつかの手法が提案されている。
推論の段階では、これらのメソッドはパッチを2つのクラスに分類する。
このアプローチでは、パッチが破棄されるすべての層で追加の計算が行われ、推論の加速が妨げられる。
本研究では,各画像パッチの寿命を決定するライフレグレッションモジュールを提案することで,異なる視点からパッチスリム化問題に取り組む。
推論中、現在のレイヤインデックスがその寿命を超えると、パッチは破棄される。
提案手法は,競合性能を維持しつつ推論速度を向上させるため,複数層での計算やパラメータの追加を回避できる。
さらに、我々のアプローチでは、他のパッチスリムメソッドよりもトレーニングエポックが少ない。
関連論文リスト
- Learning to Rank Patches for Unbiased Image Redundancy Reduction [80.93989115541966]
画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
本稿では,Learning to Rank Patchesと呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T13:12:41Z) - Learning to Embed Time Series Patches Independently [5.752266579415516]
近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。
このようなパッチをキャプチャすることは、時系列表現学習の最適戦略ではないかもしれない、と我々は主張する。
本論文では,1)他のパッチを見ることなく各パッチを自動エンコードするシンプルなパッチ再構築タスク,2)個別に各パッチを埋め込むシンプルなパッチワイド再構築タスクを提案する。
論文 参考訳(メタデータ) (2023-12-27T06:23:29Z) - PatchMorph: A Stochastic Deep Learning Approach for Unsupervised 3D
Brain Image Registration with Small Patches [0.8933002528026627]
PatchMorphは、教師なしの3D脳画像登録に適した新しいディープラーニングアルゴリズムである。
本手法では, 局所変形と大域変換を結合する解を導出するために, 一定サイズのコンパクトパッチを用いる。
連続2光子断層撮影によるヒトT1MRI脳画像とマーモセット脳画像の実験により、PatchMorphの優れた性能が確認された。
論文 参考訳(メタデータ) (2023-12-12T03:37:57Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Adaptive Patch Exiting for Scalable Single Image Super-Resolution [19.39197401813409]
本稿では、より実用的な高速化を実現するために、適応パッチ実行(APE)に基づくスケーラブルな手法を提案する。
提案手法の利点を実証するために,様々なバックボーン,データセット,スケーリング要因にわたる広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-22T10:13:48Z) - Blind Non-Uniform Motion Deblurring using Atrous Spatial Pyramid
Deformable Convolution and Deblurring-Reblurring Consistency [5.994412766684843]
複数のAtrous Space Pyramid Deformable Convolutionモジュールからなる新しいアーキテクチャを提案する。
複数のASPDCモジュールは、同じ層内で異なるディレーションレートで画素固有の動きを暗黙的に学習し、異なる大きさの動きを処理する。
実験の結果,提案手法はベンチマークデータセット上での最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-27T23:14:52Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。