論文の概要: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures
- arxiv url: http://arxiv.org/abs/2403.02308v2
- Date: Thu, 7 Mar 2024 15:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:38:40.447100
- Title: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures
- Title(参考訳): Vision-RWKV: RWKV風アーキテクチャによる効率的かつスケーラブルな視覚知覚
- Authors: Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu
Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang
- Abstract要約: 本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
- 参考スコア(独自算出の注目度): 99.20299078655376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have revolutionized computer vision and natural language
processing, but their high computational complexity limits their application in
high-resolution image processing and long-context analysis. This paper
introduces Vision-RWKV (VRWKV), a model adapted from the RWKV model used in the
NLP field with necessary modifications for vision tasks. Similar to the Vision
Transformer (ViT), our model is designed to efficiently handle sparse inputs
and demonstrate robust global processing capabilities, while also scaling up
effectively, accommodating both large-scale parameters and extensive datasets.
Its distinctive advantage lies in its reduced spatial aggregation complexity,
which renders it exceptionally adept at processing high-resolution images
seamlessly, eliminating the necessity for windowing operations. Our evaluations
demonstrate that VRWKV surpasses ViT's performance in image classification and
has significantly faster speeds and lower memory usage processing
high-resolution inputs. In dense prediction tasks, it outperforms window-based
models, maintaining comparable speeds. These results highlight VRWKV's
potential as a more efficient alternative for visual perception tasks. Code is
released at \url{https://github.com/OpenGVLab/Vision-RWKV}.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンと自然言語処理に革命をもたらしたが、その高い計算複雑性は高解像度の画像処理と長文解析における応用を制限する。
本稿では,nlp領域で使用されるrwkvモデルから適応したモデルである vision-rwkv (vrwkv) について紹介する。
Vision Transformer (ViT) と同様に、我々のモデルはスパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、これは高解像度画像のシームレスな処理に非常に適しており、ウィンドウ操作の必要性を排除している。
評価の結果、VRWKVは画像分類におけるViTの性能を上回り、メモリ使用量を大幅に高速化し、高解像度入力を処理する。
密集予測タスクでは、ウィンドウベースのモデルよりも優れ、同等の速度を維持する。
これらの結果は、視覚知覚タスクのより効率的な代替手段としてのVRWKVの可能性を強調している。
コードは \url{https://github.com/OpenGVLab/Vision-RWKV} で公開されている。
関連論文リスト
- VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models [1.03590082373586]
本稿では,VisualRWKV-HDとVisualRWKV-UHDについて述べる。
どちらのモデルも解像度を4096 x 4096ピクセルまでサポートしており、より詳細で包括的なビジュアル処理機能を提供する。
論文 参考訳(メタデータ) (2024-10-15T14:49:19Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models [33.372947082734946]
本稿では,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャについて紹介する。
我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、効果的にスケールアップするように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、高解像度画像の処理に非常に適している。
論文 参考訳(メタデータ) (2024-04-06T02:54:35Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。