論文の概要: Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition
- arxiv url: http://arxiv.org/abs/2412.11228v1
- Date: Sun, 15 Dec 2024 15:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:36.139243
- Title: Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition
- Title(参考訳): Uni-AdaFocus:ビデオ認識のための時空間動的計算
- Authors: Yulin Wang, Haoji Zhang, Yang Yue, Shiji Song, Chao Deng, Junlan Feng, Gao Huang,
- Abstract要約: 本稿では,映像理解におけるデータ冗長性の現象について検討し,計算効率の向上を目的とした。
この現象に触発され,AdaFocusと呼ばれる空間適応型ビデオ認識手法を導入する。
得られたフレームワークであるUni-AdaFocusは、シームレスに空間的、時間的、サンプルワイドな動的計算を統合する包括的なフレームワークを構築します。
- 参考スコア(独自算出の注目度): 82.75714185083383
- License:
- Abstract: This paper presents a comprehensive exploration of the phenomenon of data redundancy in video understanding, with the aim to improve computational efficiency. Our investigation commences with an examination of spatial redundancy, which refers to the observation that the most informative region in each video frame usually corresponds to a small image patch, whose shape, size and location shift smoothly across frames. Motivated by this phenomenon, we formulate the patch localization problem as a dynamic decision task, and introduce a spatially adaptive video recognition approach, termed AdaFocus. In specific, a lightweight encoder is first employed to quickly process the full video sequence, whose features are then utilized by a policy network to identify the most task-relevant regions. Subsequently, the selected patches are inferred by a high-capacity deep network for the final prediction. The full model can be trained in end-to-end conveniently. Furthermore, AdaFocus can be extended by further considering temporal and sample-wise redundancies, i.e., allocating the majority of computation to the most task-relevant frames, and minimizing the computation spent on relatively "easier" videos. Our resulting approach, Uni-AdaFocus, establishes a comprehensive framework that seamlessly integrates spatial, temporal, and sample-wise dynamic computation, while it preserves the merits of AdaFocus in terms of efficient end-to-end training and hardware friendliness. In addition, Uni-AdaFocus is general and flexible as it is compatible with off-the-shelf efficient backbones (e.g., TSM and X3D), which can be readily deployed as our feature extractor, yielding a significantly improved computational efficiency. Empirically, extensive experiments based on seven benchmark datasets and three application scenarios substantiate that Uni-AdaFocus is considerably more efficient than the competitive baselines.
- Abstract(参考訳): 本稿では,映像理解におけるデータ冗長性現象の包括的探索を行い,計算効率の向上を目的とした。
本研究は,空間冗長性の検証から始まり,各映像フレームの最も情報性の高い領域が,フレーム間の形状,大きさ,位置が円滑に変化する小さな画像パッチに対応していることを示す。
この現象に触発されて、パッチの局所化問題を動的決定タスクとして定式化し、空間適応型ビデオ認識手法であるAdaFocusを導入する。
具体的には、まず、軽量エンコーダを使用して全映像シーケンスを高速に処理し、その特徴をポリシーネットワークによって利用してタスク関連領域を識別する。
その後、選択したパッチは最終予測のために高容量のディープネットワークによって推測される。
完全なモデルは、エンドツーエンドで便利にトレーニングすることができる。
さらに、AdaFocusは、時間的およびサンプル的な冗長性、すなわち、計算の大部分をタスク関連フレームに割り当て、比較的"簡単"なビデオに費やした計算を最小限にすることで拡張することができる。
結果として得られたアプローチであるUni-AdaFocusは、空間的、時間的、サンプル的な動的計算をシームレスに統合する包括的なフレームワークを確立し、AdaFocusの利点を効率的なエンドツーエンドトレーニングとハードウェアフレンドリさの観点から保存する。
さらに、Uni-AdaFocusは、オフザシェルフ効率の良いバックボーン(例えば、TSM、X3D)と互換性があり、我々の特徴抽出器として容易に展開できるため、計算効率が大幅に向上する。
経験的に、7つのベンチマークデータセットと3つのアプリケーションシナリオに基づく広範な実験は、Uni-AdaFocusが競合するベースラインよりもはるかに効率的であることを実証している。
関連論文リスト
- A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition [44.10959567844497]
本稿では,最近提案されたAdaFocusV2アルゴリズム上での時空間力学の統一的な定式化について検討する。
AdaFocusV3は、未分化の収穫操作を深い特徴の計算で近似することにより、効果的に訓練することができる。
論文 参考訳(メタデータ) (2022-09-27T15:30:52Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video
Recognition [23.12743642910384]
この研究は、AdaFocusのトレーニングを単純なワンステージアルゴリズムとして再構成する。
本稿では,1段階の定式化で導入された問題に対処するための改良されたトレーニング手法を提案する。
私たちのモデルは、オリジナルのAdaFocusや他の競争ベースラインを大きく上回っています。
論文 参考訳(メタデータ) (2021-12-28T17:53:38Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。