論文の概要: ViR: Towards Efficient Vision Retention Backbones
- arxiv url: http://arxiv.org/abs/2310.19731v2
- Date: Fri, 26 Jan 2024 18:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:35:13.056379
- Title: ViR: Towards Efficient Vision Retention Backbones
- Title(参考訳): ViR: 効率的なビジョン保持バックボーンを目指して
- Authors: Ali Hatamizadeh, Michael Ranzinger, Shiyi Lan, Jose M. Alvarez, Sanja
Fidler, Jan Kautz
- Abstract要約: 視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
- 参考スコア(独自算出の注目度): 97.93707844681893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers (ViTs) have attracted a lot of popularity in recent
years, due to their exceptional capabilities in modeling long-range spatial
dependencies and scalability for large scale training. Although the training
parallelism of self-attention mechanism plays an important role in retaining
great performance, its quadratic complexity baffles the application of ViTs in
many scenarios which demand fast inference. This effect is even more pronounced
in applications in which autoregressive modeling of input features is required.
In Natural Language Processing (NLP), a new stream of efforts has proposed
parallelizable models with recurrent formulation that allows for efficient
inference in generative applications. Inspired by this trend, we propose a new
class of computer vision models, dubbed Vision Retention Networks (ViR), with
dual parallel and recurrent formulations, which strike an optimal balance
between fast inference and parallel training with competitive performance. In
particular, ViR scales favorably for image throughput and memory consumption in
tasks that require higher-resolution images due to its flexible formulation in
processing large sequence lengths. The ViR is the first attempt to realize dual
parallel and recurrent equivalency in a general vision backbone for recognition
tasks. We have validated the effectiveness of ViR through extensive experiments
with different dataset sizes and various image resolutions and achieved
competitive performance. Code: https://github.com/NVlabs/ViR
- Abstract(参考訳): 視覚変換器(ViT)は、長距離空間依存のモデリングや大規模トレーニングのスケーラビリティに特有な能力を持つため、近年、多くの人気を集めている。
自己注意機構の訓練並列性は、優れた性能を維持する上で重要な役割を果たすが、その二次的な複雑さは、高速な推論を必要とする多くのシナリオにおけるViTの適用を妨げている。
この効果は、入力特徴の自動回帰モデリングを必要とするアプリケーションにおいてさらに顕著である。
自然言語処理(nlp)において、新しい取り組みのストリームは、生成アプリケーションにおいて効率的な推論を可能にする再帰的定式化を伴う並列化モデルを提案している。
そこで本研究では,この傾向に触発されたビジョン保持ネットワーク(vir)と呼ばれる新しいコンピュータビジョンモデルを提案する。
特に、ViRは、大きなシーケンス長を処理する際の柔軟な定式化のため、高解像度の画像を必要とするタスクにおいて、画像スループットとメモリ消費に好適にスケールする。
ViRは、認識タスクのための一般的なビジョンバックボーンにおいて、並列性と繰り返しの等価性を実現する最初の試みである。
異なるデータセットサイズと様々な画像解像度を用いた広範囲な実験により、ViRの有効性を検証し、競争性能を達成した。
コード:https://github.com/NVlabs/ViR
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.0]
iiANET(Inception Inspired Attention Network)は,複雑な画像の長距離依存性を捉えるために設計された,効率的なハイブリッドモデルである。
基本的なビルディングブロックであるiiABlockはグローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースの畳み込み)、拡張畳み込みを並列に統合する。
各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - CViT: Continuous Vision Transformer for Operator Learning [24.1795082775376]
連続ビジョントランスフォーマー(Continuous Vision Transformer、CViT)は、コンピュータビジョンの進歩を活用して複雑な物理システムを学ぶ際の課題に対処する、新しい神経オペレーターアーキテクチャである。
CViTは、ビジョントランスフォーマーエンコーダ、新しいグリッドベースの座標埋め込み、マルチスケール依存関係を効果的にキャプチャするクエリワイドのクロスアテンション機構を組み合わせたものである。
本研究では, 流体力学, 気候モデル, 反応拡散過程を含む多種多様な偏微分方程式(PDE)システムにおけるCViTの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-22T21:13:23Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Sequencer: Deep LSTM for Image Classification [0.0]
最近のコンピュータビジョン研究において、ViT(Vision Transformer)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした。
提案するSequencerは,ViTに代わる,斬新で競争力のあるアーキテクチャである。
その単純さにもかかわらず、いくつかの実験はSequencerが素晴らしい性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-04T09:47:46Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。