論文の概要: VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis
- arxiv url: http://arxiv.org/abs/2412.18178v1
- Date: Tue, 24 Dec 2024 05:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:02.822279
- Title: VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis
- Title(参考訳): VisionGRU:効率的な画像解析のための線形複雑RNNモデル
- Authors: Shicheng Yin, Kaixuan Yin, Weixing Chen, Enbo Huang, Yang Liu,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。
本稿では,効率的な画像分類のための新しいRNNアーキテクチャであるVisionGRUを紹介する。
- 参考スコア(独自算出の注目度): 8.10783983193165
- License:
- Abstract: Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) are two dominant models for image analysis. While CNNs excel at extracting multi-scale features and ViTs effectively capture global dependencies, both suffer from high computational costs, particularly when processing high-resolution images. Recently, state-space models (SSMs) and recurrent neural networks (RNNs) have attracted attention due to their efficiency. However, their performance in image classification tasks remains limited. To address these challenges, this paper introduces VisionGRU, a novel RNN-based architecture designed for efficient image classification. VisionGRU leverages a simplified Gated Recurrent Unit (minGRU) to process large-scale image features with linear complexity. It divides images into smaller patches and progressively reduces the sequence length while increasing the channel depth, thus facilitating multi-scale feature extraction. A hierarchical 2DGRU module with bidirectional scanning captures both local and global contexts, improving long-range dependency modeling, particularly for tasks like semantic segmentation. Experimental results on the ImageNet and ADE20K datasets demonstrate that VisionGRU outperforms ViTs, significantly reducing memory usage and computational costs, especially for high-resolution images. These findings underscore the potential of RNN-based approaches for developing efficient and scalable computer vision solutions. Codes will be available at https://github.com/YangLiu9208/VisionGRU.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。
CNNはマルチスケール機能の抽出に優れ、ViTはグローバルな依存関係を効果的にキャプチャするが、どちらも高い計算コスト、特に高解像度の画像処理に悩まされている。
近年、状態空間モデル(SSM)とリカレントニューラルネットワーク(RNN)が、その効率性から注目を集めている。
しかし,画像分類作業における性能は依然として限られている。
これらの課題に対処するために、効率的な画像分類のために設計された新しいRNNベースのアーキテクチャであるVisionGRUを紹介する。
VisionGRUは、単純化されたGated Recurrent Unit (minGRU)を活用して、線形複雑性で大規模な画像特徴を処理する。
画像を小さなパッチに分割し、チャンネル深さを増大させながらシーケンス長を徐々に減少させ、マルチスケールの特徴抽出を容易にする。
双方向スキャンを備えた階層型2DGRUモジュールは、ローカルとグローバル両方のコンテキストをキャプチャし、特にセマンティックセグメンテーションのようなタスクにおいて、長距離依存性モデリングを改善する。
ImageNetとADE20Kデータセットの実験結果によると、VisionGRUはViTよりも優れており、特に高解像度画像において、メモリ使用量と計算コストが大幅に削減されている。
これらの知見は、効率的でスケーラブルなコンピュータビジョンソリューションを開発するためのRNNベースのアプローチの可能性を示している。
コードはhttps://github.com/YangLiu9208/VisionGRUで入手できる。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - ViGU: Vision GNN U-Net for Fast MRI [1.523157765626545]
Vision GNN U-Net (ViGU) と呼ばれる高速MRIのための新しいビジョンGNN型ネットワークを提案する。
対称エンコーダとデコーダパスのグラフブロックを用いてU字型ネットワークを開発する。
数値的および視覚的な実験を通して、提案したViGUとGANの変種が既存のCNNおよびGANベースの手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-01-23T12:51:57Z) - RDRN: Recursively Defined Residual Network for Image Super-Resolution [58.64907136562178]
深部畳み込みニューラルネットワーク(CNN)は、単一画像超解像において顕著な性能を得た。
本稿では,注目ブロックを効率的に活用する新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:06:29Z) - Image Super-resolution with An Enhanced Group Convolutional Neural
Network [102.2483249598621]
学習能力の強いCNNは、超解像問題を解くために広く選択されている。
浅層構造を持つ超解像群CNN(ESRGCNN)を提案する。
ESRGCNNは、SISRの性能、複雑さ、実行速度、画質評価およびSISRの視覚効果の観点から、最先端技術を上回っていると報告されている。
論文 参考訳(メタデータ) (2022-05-29T00:34:25Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Leveraging Image Complexity in Macro-Level Neural Network Design for
Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。
高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文 参考訳(メタデータ) (2021-12-21T09:49:47Z) - RSI-Net: Two-Stream Deep Neural Network Integrating GCN and Atrous CNN
for Semantic Segmentation of High-resolution Remote Sensing Images [3.468780866037609]
本稿では,リモートセンシング画像(RSI-Net)のセマンティックセグメンテーションのための2ストリームディープニューラルネットワークを提案する。
実験はVayhingen、Potsdam、Gaofen RSIデータセットで実施されている。
その結果,6つの最先端RSIセマンティックセグメンテーション法と比較して,総合的精度,F1スコア,カッパ係数において,RSI-Netの優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-19T15:57:20Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Binarized Graph Neural Network [65.20589262811677]
我々は二項化グラフニューラルネットワークを開発し、二項化ネットワークパラメータを用いてノードのバイナリ表現を学習する。
提案手法は既存のGNNベースの埋め込み手法にシームレスに統合できる。
実験により、提案された二項化グラフニューラルネットワーク、すなわちBGNは、時間と空間の両方の観点から、桁違いに効率的であることが示されている。
論文 参考訳(メタデータ) (2020-04-19T09:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。