論文の概要: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures
- arxiv url: http://arxiv.org/abs/2403.02308v2
- Date: Thu, 7 Mar 2024 15:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:38:40.447100
- Title: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures
- Title(参考訳): Vision-RWKV: RWKV風アーキテクチャによる効率的かつスケーラブルな視覚知覚
- Authors: Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu
Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang
- Abstract要約: 本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
- 参考スコア(独自算出の注目度): 99.20299078655376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have revolutionized computer vision and natural language
processing, but their high computational complexity limits their application in
high-resolution image processing and long-context analysis. This paper
introduces Vision-RWKV (VRWKV), a model adapted from the RWKV model used in the
NLP field with necessary modifications for vision tasks. Similar to the Vision
Transformer (ViT), our model is designed to efficiently handle sparse inputs
and demonstrate robust global processing capabilities, while also scaling up
effectively, accommodating both large-scale parameters and extensive datasets.
Its distinctive advantage lies in its reduced spatial aggregation complexity,
which renders it exceptionally adept at processing high-resolution images
seamlessly, eliminating the necessity for windowing operations. Our evaluations
demonstrate that VRWKV surpasses ViT's performance in image classification and
has significantly faster speeds and lower memory usage processing
high-resolution inputs. In dense prediction tasks, it outperforms window-based
models, maintaining comparable speeds. These results highlight VRWKV's
potential as a more efficient alternative for visual perception tasks. Code is
released at \url{https://github.com/OpenGVLab/Vision-RWKV}.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンと自然言語処理に革命をもたらしたが、その高い計算複雑性は高解像度の画像処理と長文解析における応用を制限する。
本稿では,nlp領域で使用されるrwkvモデルから適応したモデルである vision-rwkv (vrwkv) について紹介する。
Vision Transformer (ViT) と同様に、我々のモデルはスパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、これは高解像度画像のシームレスな処理に非常に適しており、ウィンドウ操作の必要性を排除している。
評価の結果、VRWKVは画像分類におけるViTの性能を上回り、メモリ使用量を大幅に高速化し、高解像度入力を処理する。
密集予測タスクでは、ウィンドウベースのモデルよりも優れ、同等の速度を維持する。
これらの結果は、視覚知覚タスクのより効率的な代替手段としてのVRWKVの可能性を強調している。
コードは \url{https://github.com/OpenGVLab/Vision-RWKV} で公開されている。
関連論文リスト
- An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference
Acceleration for Large Vision-Language Models [68.65691483168466]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - RRWKV: Capturing Long-range Dependencies in RWKV [0.0]
本稿では、RWKVにレトロスペクション機能を組み込むことで、効率的に情報を吸収することで、Retrospected Receptance Weighted Key Valueアーキテクチャを考案する。
RWKVは、線形にテンソル積の注意機構を利用して、時間列モードをデプロイすることで並列化された計算を実現している。
論文 参考訳(メタデータ) (2023-06-08T13:17:06Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Searching for Winograd-aware Quantized Networks [12.351250944079949]
我々は、ウィノグラード変換によって導入された数値的不正確さを明らかにする畳み込み層のウィノグラード対応の定式化を提案する。
また, 数値誤差の原因にも対処し, 変換行列の形状を緩和し, CIFAR-10の分類精度を最大10%向上させる手法を提案する。
論文 参考訳(メタデータ) (2020-02-25T07:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。