論文の概要: Adaptive Focus for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2105.03245v1
- Date: Fri, 7 May 2021 13:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:21:14.052831
- Title: Adaptive Focus for Efficient Video Recognition
- Title(参考訳): 効率的な映像認識のための適応焦点
- Authors: Yulin Wang, Zhaoxi Chen, Haojun Jiang, Shiji Song, Yizeng Han, Gao
Huang
- Abstract要約: 効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
- 参考スコア(独自算出の注目度): 29.615394426035074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the spatial redundancy in video recognition with
the aim to improve the computational efficiency. It is observed that the most
informative region in each frame of a video is usually a small image patch,
which shifts smoothly across frames. Therefore, we model the patch localization
problem as a sequential decision task, and propose a reinforcement learning
based approach for efficient spatially adaptive video recognition (AdaFocus).
In specific, a light-weighted ConvNet is first adopted to quickly process the
full video sequence, whose features are used by a recurrent policy network to
localize the most task-relevant regions. Then the selected patches are inferred
by a high-capacity network for the final prediction. During offline inference,
once the informative patch sequence has been generated, the bulk of computation
can be done in parallel, and is efficient on modern GPU devices. In addition,
we demonstrate that the proposed method can be easily extended by further
considering the temporal redundancy, e.g., dynamically skipping less valuable
frames. Extensive experiments on five benchmark datasets, i.e., ActivityNet,
FCVID, Mini-Kinetics, Something-Something V1&V2, demonstrate that our method is
significantly more efficient than the competitive baselines. Code will be
available at https://github.com/blackfeather-wang/AdaFocus.
- Abstract(参考訳): 本稿では,計算効率の向上を目的として,映像認識における空間冗長性について検討する。
ビデオの各フレームにおいて最も情報性の高い領域は、通常、小さな画像パッチであり、フレーム間でスムーズにシフトする。
そこで我々は,パッチローカライゼーション問題を逐次決定課題としてモデル化し,空間適応型画像認識(AdaFocus)のための強化学習に基づくアプローチを提案する。
具体的には、タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
そして、選択したパッチを最終予測のために高容量ネットワークで推測する。
オフライン推論では、インフォメーションパッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスでは効率がよい。
また,提案手法は,時間的冗長性,例えば,より価値の低いフレームを動的にスキップすることで,容易に拡張できることを実証する。
5つのベンチマークデータセット、すなわちActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2の大規模な実験により、我々の手法は競合するベースラインよりもはるかに効率的であることが示された。
コードはhttps://github.com/blackfeather-wang/adafocusで入手できる。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition [44.10959567844497]
本稿では,最近提案されたAdaFocusV2アルゴリズム上での時空間力学の統一的な定式化について検討する。
AdaFocusV3は、未分化の収穫操作を深い特徴の計算で近似することにより、効果的に訓練することができる。
論文 参考訳(メタデータ) (2022-09-27T15:30:52Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。