論文の概要: AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
- arxiv url: http://arxiv.org/abs/2007.15796v1
- Date: Fri, 31 Jul 2020 01:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:39:17.562441
- Title: AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
- Title(参考訳): AR-Net:効果的な行動認識のための適応フレーム分解能
- Authors: Yue Meng, Chung-Ching Lin, Rameswar Panda, Prasanna Sattigeri, Leonid
Karlinsky, Aude Oliva, Kate Saenko, and Rogerio Feris
- Abstract要約: 行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 70.62587948892633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is an open and challenging problem in computer vision.
While current state-of-the-art models offer excellent recognition results,
their computational expense limits their impact for many real-world
applications. In this paper, we propose a novel approach, called AR-Net
(Adaptive Resolution Network), that selects on-the-fly the optimal resolution
for each frame conditioned on the input for efficient action recognition in
long untrimmed videos. Specifically, given a video frame, a policy network is
used to decide what input resolution should be used for processing by the
action recognition model, with the goal of improving both accuracy and
efficiency. We efficiently train the policy network jointly with the
recognition model using standard back-propagation. Extensive experiments on
several challenging action recognition benchmark datasets well demonstrate the
efficacy of our proposed approach over state-of-the-art methods. The project
page can be found at https://mengyuest.github.io/AR-Net
- Abstract(参考訳): 行動認識はコンピュータビジョンにおいてオープンかつ挑戦的な問題である。
現在の最先端モデルは優れた認識結果を提供するが、その計算費用は現実世界の多くのアプリケーションに対する影響を制限する。
本稿では,提案手法であるar-net(adaptive resolution network,適応解像度ネットワーク)を提案する。
具体的には、映像フレームを与えられた場合、アクション認識モデルによる処理にどの入力解像度を使用するべきかを、精度と効率の両立を目標としてポリシーネットワークを用いて決定する。
標準バックプロパゲーションを用いた認識モデルと協調してポリシーネットワークを効率的に訓練する。
いくつかの挑戦的行動認識ベンチマークデータセットに関する広範な実験は、最先端手法に対する提案手法の有効性をよく示している。
プロジェクトページはhttps://mengyuest.github.io/AR-Netにある。
関連論文リスト
- Rethinking Resolution in the Context of Efficient Video Recognition [49.957690643214576]
クロスレゾリューションKD(ResKD)は、低解像度フレームでの認識精度を高めるための単純だが効果的な方法である。
我々は,最先端アーキテクチャ,すなわち3D-CNNとビデオトランスフォーマーに対して,その効果を広く示す。
論文 参考訳(メタデータ) (2022-09-26T15:50:44Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - FasterVideo: Efficient Online Joint Object Detection And Tracking [0.8680676599607126]
我々は、画像オブジェクト検出において最も成功した方法の一つである、Faster R-CNNを再考し、それをビデオ領域に拡張する。
提案手法は,関連アプリケーションに必要な計算効率が非常に高い。
論文 参考訳(メタデータ) (2022-04-15T09:25:34Z) - Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。
我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文 参考訳(メタデータ) (2021-08-23T20:23:57Z) - AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition [61.51188561808917]
AdaMML と呼ばれる適応型マルチモーダル学習フレームワークを提案し、各セグメントの最適なモダリティをオンザフライで選択し、効率的なビデオ認識を実現します。
提案手法は,従来のベースラインと比較して,計算効率が35%-55%低下することを示した。
論文 参考訳(メタデータ) (2021-05-11T16:19:07Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。