論文の概要: ViR: Towards Efficient Vision Retention Backbones
- arxiv url: http://arxiv.org/abs/2310.19731v2
- Date: Fri, 26 Jan 2024 18:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:35:13.056379
- Title: ViR: Towards Efficient Vision Retention Backbones
- Title(参考訳): ViR: 効率的なビジョン保持バックボーンを目指して
- Authors: Ali Hatamizadeh, Michael Ranzinger, Shiyi Lan, Jose M. Alvarez, Sanja
Fidler, Jan Kautz
- Abstract要約: 視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
- 参考スコア(独自算出の注目度): 97.93707844681893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers (ViTs) have attracted a lot of popularity in recent
years, due to their exceptional capabilities in modeling long-range spatial
dependencies and scalability for large scale training. Although the training
parallelism of self-attention mechanism plays an important role in retaining
great performance, its quadratic complexity baffles the application of ViTs in
many scenarios which demand fast inference. This effect is even more pronounced
in applications in which autoregressive modeling of input features is required.
In Natural Language Processing (NLP), a new stream of efforts has proposed
parallelizable models with recurrent formulation that allows for efficient
inference in generative applications. Inspired by this trend, we propose a new
class of computer vision models, dubbed Vision Retention Networks (ViR), with
dual parallel and recurrent formulations, which strike an optimal balance
between fast inference and parallel training with competitive performance. In
particular, ViR scales favorably for image throughput and memory consumption in
tasks that require higher-resolution images due to its flexible formulation in
processing large sequence lengths. The ViR is the first attempt to realize dual
parallel and recurrent equivalency in a general vision backbone for recognition
tasks. We have validated the effectiveness of ViR through extensive experiments
with different dataset sizes and various image resolutions and achieved
competitive performance. Code: https://github.com/NVlabs/ViR
- Abstract(参考訳): 視覚変換器(ViT)は、長距離空間依存のモデリングや大規模トレーニングのスケーラビリティに特有な能力を持つため、近年、多くの人気を集めている。
自己注意機構の訓練並列性は、優れた性能を維持する上で重要な役割を果たすが、その二次的な複雑さは、高速な推論を必要とする多くのシナリオにおけるViTの適用を妨げている。
この効果は、入力特徴の自動回帰モデリングを必要とするアプリケーションにおいてさらに顕著である。
自然言語処理(nlp)において、新しい取り組みのストリームは、生成アプリケーションにおいて効率的な推論を可能にする再帰的定式化を伴う並列化モデルを提案している。
そこで本研究では,この傾向に触発されたビジョン保持ネットワーク(vir)と呼ばれる新しいコンピュータビジョンモデルを提案する。
特に、ViRは、大きなシーケンス長を処理する際の柔軟な定式化のため、高解像度の画像を必要とするタスクにおいて、画像スループットとメモリ消費に好適にスケールする。
ViRは、認識タスクのための一般的なビジョンバックボーンにおいて、並列性と繰り返しの等価性を実現する最初の試みである。
異なるデータセットサイズと様々な画像解像度を用いた広範囲な実験により、ViRの有効性を検証し、競争性能を達成した。
コード:https://github.com/NVlabs/ViR
関連論文リスト
- Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - ParaFormer: Parallel Attention Transformer for Efficient Feature
Matching [8.552303361149612]
本稿ではParaFormerという新しい並列アテンションモデルを提案する。
振幅と位相という概念を通じて特徴とキーポイントの位置を融合させ、平行して自己と横断性を統合する。
ホモグラフィー推定、ポーズ推定、画像マッチングなど様々な応用実験により、ParaFormerが最先端の性能を達成することを示す。
効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-02T03:29:16Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Sequencer: Deep LSTM for Image Classification [0.0]
最近のコンピュータビジョン研究において、ViT(Vision Transformer)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした。
提案するSequencerは,ViTに代わる,斬新で競争力のあるアーキテクチャである。
その単純さにもかかわらず、いくつかの実験はSequencerが素晴らしい性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-04T09:47:46Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。