論文の概要: VidConv: A modernized 2D ConvNet for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2207.03782v1
- Date: Fri, 8 Jul 2022 09:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 11:45:54.555572
- Title: VidConv: A modernized 2D ConvNet for Efficient Video Recognition
- Title(参考訳): VidConv: 効率的なビデオ認識のための2D ConvNetの近代化
- Authors: Chuong H. Nguyen, Su Huynh, Vinh Nguyen, Ngoc Nguyen
- Abstract要約: ビジョントランスフォーマー(ViT)は、多くのビジョンタスクにおいて、着実に記録を破っている。
ViTは一般的に計算量、メモリ消費量、組込みデバイスには不向きである。
本稿では、ConvNetの近代化された構造を用いて、アクション認識のための新しいバックボーンを設計する。
- 参考スコア(独自算出の注目度): 0.8070014188337304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since being introduced in 2020, Vision Transformers (ViT) has been steadily
breaking the record for many vision tasks and are often described as
``all-you-need" to replace ConvNet. Despite that, ViTs are generally
computational, memory-consuming, and unfriendly for embedded devices. In
addition, recent research shows that standard ConvNet if redesigned and trained
appropriately can compete favorably with ViT in terms of accuracy and
scalability. In this paper, we adopt the modernized structure of ConvNet to
design a new backbone for action recognition. Particularly, our main target is
to serve for industrial product deployment, such as FPGA boards in which only
standard operations are supported. Therefore, our network simply consists of 2D
convolutions, without using any 3D convolution, long-range attention plugin, or
Transformer blocks. While being trained with much fewer epochs (5x-10x), our
backbone surpasses the methods using (2+1)D and 3D convolution, and achieve
comparable results with ViT on two benchmark datasets.
- Abstract(参考訳): 2020年に導入されて以来、ViT(Vision Transformers)は多くのビジョンタスクの記録を徐々に破り続けており、ConvNetを置き換えるために 'all-you-need' と表現されることが多い。
しかし、ViTは一般的に計算量、メモリ消費量、組込みデバイスには不向きである。
さらに、最近の研究では、設計や訓練が適切に行われた場合の標準のConvNetは、精度とスケーラビリティの点で、ViTと良好に競合できることを示している。
本稿では,行動認識のための新しいバックボーンを設計するために,convnetの近代化構造を採用する。
特に私たちの主な目標は、標準操作のみをサポートするfpgaボードなど、産業製品展開のためのサービスを提供することです。
したがって,ネットワークは3Dコンボリューション,長距離アテンションプラグイン,トランスフォーマーブロックを使わずに2Dコンボリューションで構成されている。
非常に少ないエポック(5x-10x)でトレーニングされている間、バックボーンは (2+1)D と 3D の畳み込みを使ってメソッドを上回り、2つのベンチマークデータセットで ViT と同等の結果を得る。
関連論文リスト
- 3D-RCNet: Learning from Transformer to Build a 3D Relational ConvNet for Hyperspectral Image Classification [8.124761584272132]
本稿では,ConvNet と ViT の両長所を継承する 3D-RCNet という3Dリレーショナル ConvNet を提案する。
提案した3D-RCNetは、ViTの柔軟性を享受しながら、ConvNetの高い計算効率を維持している。
3つの代表的なベンチマークHSIデータセットに対する実証的な評価は、提案モデルが以前のConvNetおよびViTベースのHSIアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2024-08-25T05:41:47Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - simCrossTrans: A Simple Cross-Modality Transfer Learning for Object
Detection with ConvNets or Vision Transformers [1.14219428942199]
CMTLを2次元から3次元に分割し,3次元センサのみの上限性能について検討した。
2Dから3DビジョンまでのほとんどのCMTLパイプラインは複雑で、畳み込みニューラルネットワーク(ConvNets)をベースとしています。
論文 参考訳(メタデータ) (2022-03-20T05:03:29Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。