論文の概要: Rethinking Resolution in the Context of Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2209.12797v1
- Date: Mon, 26 Sep 2022 15:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:43:17.733573
- Title: Rethinking Resolution in the Context of Efficient Video Recognition
- Title(参考訳): 効率的な映像認識における解像度の再考
- Authors: Chuofan Ma, Qiushan Guo, Yi Jiang, Zehuan Yuan, Ping Luo, Xiaojuan Qi
- Abstract要約: クロスレゾリューションKD(ResKD)は、低解像度フレームでの認識精度を高めるための単純だが効果的な方法である。
我々は,最先端アーキテクチャ,すなわち3D-CNNとビデオトランスフォーマーに対して,その効果を広く示す。
- 参考スコア(独自算出の注目度): 49.957690643214576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we empirically study how to make the most of low-resolution
frames for efficient video recognition. Existing methods mainly focus on
developing compact networks or alleviating temporal redundancy of video inputs
to increase efficiency, whereas compressing frame resolution has rarely been
considered a promising solution. A major concern is the poor recognition
accuracy on low-resolution frames. We thus start by analyzing the underlying
causes of performance degradation on low-resolution frames. Our key finding is
that the major cause of degradation is not information loss in the
down-sampling process, but rather the mismatch between network architecture and
input scale. Motivated by the success of knowledge distillation (KD), we
propose to bridge the gap between network and input size via cross-resolution
KD (ResKD). Our work shows that ResKD is a simple but effective method to boost
recognition accuracy on low-resolution frames. Without bells and whistles,
ResKD considerably surpasses all competitive methods in terms of efficiency and
accuracy on four large-scale benchmark datasets, i.e., ActivityNet, FCVID,
Mini-Kinetics, Something-Something V2. In addition, we extensively demonstrate
its effectiveness over state-of-the-art architectures, i.e., 3D-CNNs and Video
Transformers, and scalability towards super low-resolution frames. The results
suggest ResKD can serve as a general inference acceleration method for
state-of-the-art video recognition. Our code will be available at
https://github.com/CVMI-Lab/ResKD.
- Abstract(参考訳): 本稿では,低解像度フレームを最大限に活用し,効率的な映像認識を実現する方法について実験的に検討する。
既存の手法は主にコンパクトネットワークの開発や、ビデオ入力の時間的冗長性を緩和して効率を向上させることに焦点を当てている。
主な懸念は低解像度フレームの認識精度の低さである。
したがって,低解像度フレームの性能劣化の原因を解析することから始める。
私たちの重要な発見は、劣化の主な原因はダウンサンプリングプロセスにおける情報損失ではなく、ネットワークアーキテクチャと入力スケールのミスマッチにあるということです。
知識蒸留(KD)の成功により,クロスレゾリューションKD(ResKD)を用いて,ネットワークと入力サイズの間のギャップを埋めることを提案する。
本研究では,reskdは低解像度フレームの認識精度を高めるための簡易かつ効果的な手法であることを示す。
ベルとホイッスルがなければ、ResKDは4つの大規模ベンチマークデータセット(ActivityNet、FCVID、Mini-Kinetics、Something V2)の効率と正確性において、競合するすべてのメソッドをかなり上回っている。
さらに,3D-CNNやビデオトランスフォーマーといった最先端アーキテクチャに対する有効性や,超低解像度フレームへのスケーラビリティを広く実証した。
結果から,reskdは最先端映像認識のための汎用的推論加速度法として機能することが示唆された。
私たちのコードはhttps://github.com/CVMI-Lab/ResKDで公開されます。
関連論文リスト
- Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - SwiftSRGAN -- Rethinking Super-Resolution for Efficient and Real-time
Inference [0.0]
本稿では,メモリフットプリントの高速化と小型化を実現したアーキテクチャを提案する。
リアルタイムの超解像度により、帯域幅の低い条件下でも高解像度のメディアコンテンツをストリーミングできる。
論文 参考訳(メタデータ) (2021-11-29T04:20:15Z) - Super-Resolving Compressed Video in Coding Chain [27.994055823226848]
レファレンスベースのDCNNと連携する混合解像度符号化フレームワークを提案する。
この新しい符号化チェーンにおいて、基準ベースDCNNは、低解像度(LR)圧縮ビデオからデコーダ側の高解像度(HR)クリーンバージョンへの直接マッピングを学習する。
論文 参考訳(メタデータ) (2021-03-26T03:39:54Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。