論文の概要: AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition
- arxiv url: http://arxiv.org/abs/2209.13465v1
- Date: Tue, 27 Sep 2022 15:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 14:33:14.149176
- Title: AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition
- Title(参考訳): AdaFocusV3:統合時空間動的ビデオ認識について
- Authors: Yulin Wang, Yang Yue, Xinhong Xu, Ali Hassani, Victor Kulikov, Nikita
Orlov, Shiji Song, Humphrey Shi, Gao Huang
- Abstract要約: 本稿では,最近提案されたAdaFocusV2アルゴリズム上での時空間力学の統一的な定式化について検討する。
AdaFocusV3は、未分化の収穫操作を深い特徴の計算で近似することにより、効果的に訓練することができる。
- 参考スコア(独自算出の注目度): 44.10959567844497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has revealed that reducing the temporal and spatial
redundancy are both effective approaches towards efficient video recognition,
e.g., allocating the majority of computation to a task-relevant subset of
frames or the most valuable image regions of each frame. However, in most
existing works, either type of redundancy is typically modeled with another
absent. This paper explores the unified formulation of spatial-temporal dynamic
computation on top of the recently proposed AdaFocusV2 algorithm, contributing
to an improved AdaFocusV3 framework. Our method reduces the computational cost
by activating the expensive high-capacity network only on some small but
informative 3D video cubes. These cubes are cropped from the space formed by
frame height, width, and video duration, while their locations are adaptively
determined with a light-weighted policy network on a per-sample basis. At test
time, the number of the cubes corresponding to each video is dynamically
configured, i.e., video cubes are processed sequentially until a sufficiently
reliable prediction is produced. Notably, AdaFocusV3 can be effectively trained
by approximating the non-differentiable cropping operation with the
interpolation of deep features. Extensive empirical results on six benchmark
datasets (i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2
and Diving48) demonstrate that our model is considerably more efficient than
competitive baselines.
- Abstract(参考訳): 近年の研究では、時間的および空間的冗長性の低減は、例えば、計算の大部分をフレームのタスク関連サブセットやフレームの最も価値のある画像領域に割り当てるといった、効率的なビデオ認識への効果的なアプローチであることが明らかになっている。
しかし、現存するほとんどの作品では、どちらの冗長性も通常別の欠落を伴ってモデル化される。
本稿では,最近提案されたadafocusv2アルゴリズム上での空間時空間動的計算の統一的定式化について検討し,adafocusv3フレームワークの改良に寄与する。
提案手法は,小型だが情報に富む3Dビデオキューブ上でのみ高価な高容量ネットワークを動作させることにより,計算コストを削減する。
これらの立方体はフレームの高さ、幅、ビデオの長さで形成された空間から収穫され、その位置はサンプルごとに軽量なポリシーネットワークで適応的に決定される。
テスト時には、各映像に対応するキューブの数を動的に設定する、すなわち、十分に信頼できる予測が作成されるまで、ビデオキューブを順次処理する。
特に、AdaFocusV3は、未分化の収穫操作と深い特徴の補間を近似することにより、効果的に訓練することができる。
6つのベンチマークデータセット(ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2, Diving48)の大規模な実験結果から,我々のモデルは競争ベースラインよりもはるかに効率的であることが示された。
関連論文リスト
- EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition [0.0]
本稿では,ビデオにおける行動認識のための効果的なポーズ駆動型注意誘導型マルチモーダル行動認識(EPAM-Net)を提案する。
具体的には、RGBビデオとそのスケルトンシーケンスから、ポーズストリームとネットワーク時間特徴の両方にX3Dネットワークを適用した。
我々のモデルはFLOPの6.2-9.9-x削減(浮動小数点演算、乗算加算数)とネットワークパラメータの9-9.6倍削減を提供する。
論文 参考訳(メタデータ) (2024-08-10T03:15:24Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。