論文の概要: PatchNet -- Short-range Template Matching for Efficient Video Processing
- arxiv url: http://arxiv.org/abs/2103.07371v1
- Date: Wed, 10 Mar 2021 20:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 03:41:16.018822
- Title: PatchNet -- Short-range Template Matching for Efficient Video Processing
- Title(参考訳): PatchNet -- 効率的なビデオ処理のための短距離テンプレートマッチング
- Authors: Huizi Mao, Sibo Zhu, Song Han, William J. Dally
- Abstract要約: PatchNetは、隣接するビデオフレーム内のオブジェクトにマッチする効率的な畳み込みニューラルネットワークである。
PatchNetは非常にコンパクトで、わずか58MFLOPで動作し、MobileNetV2よりも$ 5times$シンプルです。
ビデオオブジェクト検出と視覚オブジェクト追跡という2つのタスクでその応用を実演する。
- 参考スコア(独自算出の注目度): 16.33718159978111
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Object recognition is a fundamental problem in many video processing tasks,
accurately locating seen objects at low computation cost paves the way for
on-device video recognition. We propose PatchNet, an efficient convolutional
neural network to match objects in adjacent video frames. It learns the
patchwise correlation features instead of pixel features. PatchNet is very
compact, running at just 58MFLOPs, $5\times$ simpler than MobileNetV2. We
demonstrate its application on two tasks, video object detection and visual
object tracking. On ImageNet VID, PatchNet reduces the flops of R-FCN
ResNet-101 by 5x and EfficientDet-D0 by 3.4x with less than 1% mAP loss. On
OTB2015, PatchNet reduces SiamFC and SiamRPN by 2.5x with no accuracy loss.
Experiments on Jetson Nano further demonstrate 2.8x to 4.3x speed-ups
associated with flops reduction. Code is open sourced at
https://github.com/RalphMao/PatchNet.
- Abstract(参考訳): オブジェクト認識は、多くのビデオ処理タスクにおいて基本的な問題であり、デバイス上のビデオ認識の道のりを、低い計算コストで正確に見つけ出す。
PatchNetは、隣接するビデオフレーム内のオブジェクトにマッチする効率的な畳み込みニューラルネットワークである。
ピクセル機能の代わりにパッチワイドの相関機能を学ぶ。
PatchNetは非常にコンパクトで、わずか58MFLOPs、$5\times$ MobileNetV2よりシンプルです。
ビデオオブジェクト検出と視覚オブジェクト追跡という2つのタスクでその応用を実演する。
ImageNet VIDでは、PatchNetはR-FCN ResNet-101のフロップを5倍、EfficientDet-D0は3.4倍、mAP損失は1%未満です。
OTB2015 では、PatchNet は SiamFC と SiamRPN を 2.5x 削減します。
Jetson Nanoの実験では、フロップ減少に伴う2.8倍から4.3倍の速度アップが実証されている。
コードはhttps://github.com/RalphMao/PatchNetで公開されている。
関連論文リスト
- PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference [11.112356346406365]
PaPrは、軽量なConvNetを使用して、最小限の精度で冗長なパッチを実質的に刈り取る方法である。
FLOPカウントの低減に類似した、最先端のパッチリダクション法よりもはるかに高い精度を実現している。
論文 参考訳(メタデータ) (2024-03-24T05:50:00Z) - Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks [15.519170283930276]
冗長計算とメモリアクセスを同時に削減し,空間的特徴をより効率的に抽出する新しい部分畳み込み(PConv)を提案する。
当社のPConv上に構築された新しいニューラルネットワークファミリーであるFasterNetも提案しています。
当社の大きなFasterNet-Lは、新興のSwin-Bと同等の8,3.5%の精度で、GPU上での推論スループットは36%高い。
論文 参考訳(メタデータ) (2023-03-07T06:05:30Z) - GhostNetV2: Enhance Cheap Operation with Long-Range Attention [59.65543143580889]
ハードウェアフレンドリーなアテンション機構(DFCアテンション)を提案し,モバイルアプリケーション用の新しいGhostNetV2アーキテクチャを提案する。
提案したDFCアテンションは、ハードウェア上で高速に動作できるだけでなく、長距離画素間の依存を捉えることができる完全接続層に基づいて構築されている。
さらに,従来のGhostNetのボトルネックを再考し,DFCに着目した安価な操作による機能拡張を提案する。
論文 参考訳(メタデータ) (2022-11-23T12:16:59Z) - RepGhost: A Hardware-Efficient Ghost Module via Re-parameterization [13.605461609002539]
機能再利用は、軽量畳み込みニューラルネットワーク(CNN)アーキテクチャ設計において重要な技術である。
現在の手法では、他のレイヤから特徴マップを再利用することで、大容量のチャネル番号を安価に維持するために、連結演算子を利用する。
本稿では、結合ではなく、暗黙的に、より効率的に機能再利用を実現するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-11-11T09:44:23Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - MicroNet: Improving Image Recognition with Extremely Low FLOPs [82.54764264255505]
疎結合性と動的アクティベーション関数の2つの要因が,精度向上に有効であることがわかった。
非線形性を改善するために動的シフトマックスと呼ばれる新しい動的アクティベーション関数を提案する。
私たちはMicroNetというネットワークのファミリに到達し、低FLOP体制下での最先端技術に対して大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-08-12T17:59:41Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - DyNet: Dynamic Convolution for Accelerating Convolutional Neural
Networks [16.169176006544436]
本稿では,画像内容に基づいてコンボリューションカーネルを適応的に生成する動的畳み込み手法を提案する。
MobileNetV3-Small/Largeアーキテクチャに基づいて、DyNetはImageNet上で70.3/77.1%のTop-1精度を達成し、2.9/1.9%改善した。
論文 参考訳(メタデータ) (2020-04-22T16:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。