Fugu-MT 論文翻訳(概要): Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

論文の概要: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

arxiv url: http://arxiv.org/abs/2403.02308v2
Date: Thu, 7 Mar 2024 15:43:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 16:38:40.447100
Title: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures
Title（参考訳）: Vision-RWKV: RWKV風アーキテクチャによる効率的かつスケーラブルな視覚知覚
Authors: Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang
Abstract要約: 本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
参考スコア（独自算出の注目度）: 99.20299078655376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have revolutionized computer vision and natural language processing, but their high computational complexity limits their application in high-resolution image processing and long-context analysis. This paper introduces Vision-RWKV (VRWKV), a model adapted from the RWKV model used in the NLP field with necessary modifications for vision tasks. Similar to the Vision Transformer (ViT), our model is designed to efficiently handle sparse inputs and demonstrate robust global processing capabilities, while also scaling up effectively, accommodating both large-scale parameters and extensive datasets. Its distinctive advantage lies in its reduced spatial aggregation complexity, which renders it exceptionally adept at processing high-resolution images seamlessly, eliminating the necessity for windowing operations. Our evaluations demonstrate that VRWKV surpasses ViT's performance in image classification and has significantly faster speeds and lower memory usage processing high-resolution inputs. In dense prediction tasks, it outperforms window-based models, maintaining comparable speeds. These results highlight VRWKV's potential as a more efficient alternative for visual perception tasks. Code is released at \url{https://github.com/OpenGVLab/Vision-RWKV}.
Abstract（参考訳）: トランスフォーマーはコンピュータビジョンと自然言語処理に革命をもたらしたが、その高い計算複雑性は高解像度の画像処理と長文解析における応用を制限する。本稿では,nlp領域で使用されるrwkvモデルから適応したモデルである vision-rwkv (vrwkv) について紹介する。 Vision Transformer (ViT) と同様に、我々のモデルはスパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。その顕著な利点は空間集約の複雑さの低減であり、これは高解像度画像のシームレスな処理に非常に適しており、ウィンドウ操作の必要性を排除している。評価の結果、VRWKVは画像分類におけるViTの性能を上回り、メモリ使用量を大幅に高速化し、高解像度入力を処理する。密集予測タスクでは、ウィンドウベースのモデルよりも優れ、同等の速度を維持する。これらの結果は、視覚知覚タスクのより効率的な代替手段としてのVRWKVの可能性を強調している。コードは \url{https://github.com/OpenGVLab/Vision-RWKV} で公開されている。

関連論文リスト

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文参考訳（メタデータ） (2025-04-21T03:00:17Z)
VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models [1.03590082373586]
本稿では,VisualRWKV-HDとVisualRWKV-UHDについて述べる。どちらのモデルも解像度を4096 x 4096ピクセルまでサポートしており、より詳細で包括的なビジュアル処理機能を提供する。
論文参考訳（メタデータ） (2024-10-15T14:49:19Z)
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。 ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文参考訳（メタデータ） (2024-05-24T17:34:15Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models [33.372947082734946]
本稿では,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャについて紹介する。我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、効果的にスケールアップするように設計されている。その顕著な利点は空間集約の複雑さの低減であり、高解像度画像の処理に非常に適している。
論文参考訳（メタデータ） (2024-04-06T02:54:35Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。 ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文参考訳（メタデータ） (2023-10-30T16:55:50Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。