論文の概要: Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition
- arxiv url: http://arxiv.org/abs/2002.03342v1
- Date: Sun, 9 Feb 2020 11:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 14:43:10.154625
- Title: Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition
- Title(参考訳): 動的推論:効率的なビデオ行動認識への新しいアプローチ
- Authors: Wenhao Wu, Dongliang He, Xiao Tan, Shifeng Chen, Yi Yang, Shilei Wen
- Abstract要約: ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
- 参考スコア(独自算出の注目度): 69.9658249941149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though action recognition in videos has achieved great success recently, it
remains a challenging task due to the massive computational cost. Designing
lightweight networks is a possible solution, but it may degrade the recognition
performance. In this paper, we innovatively propose a general dynamic inference
idea to improve inference efficiency by leveraging the variation in the
distinguishability of different videos. The dynamic inference approach can be
achieved from aspects of the network depth and the number of input video
frames, or even in a joint input-wise and network depth-wise manner. In a
nutshell, we treat input frames and network depth of the computational graph as
a 2-dimensional grid, and several checkpoints are placed on this grid in
advance with a prediction module. The inference is carried out progressively on
the grid by following some predefined route, whenever the inference process
comes across a checkpoint, an early prediction can be made depending on whether
the early stop criteria meets. For the proof-of-concept purpose, we instantiate
three dynamic inference frameworks using two well-known backbone CNNs. In these
instances, we overcome the drawback of limited temporal coverage resulted from
an early prediction by a novel frame permutation scheme, and alleviate the
conflict between progressive computation and video temporal relation modeling
by introducing an online temporal shift module. Extensive experiments are
conducted to thoroughly analyze the effectiveness of our ideas and to inspire
future research efforts. Results on various datasets also evident the
superiority of our approach.
- Abstract(参考訳): 近年、ビデオにおけるアクション認識は大きな成功を収めているが、膨大な計算コストのために難しい課題である。
軽量ネットワークの設計は可能であるが、認識性能を低下させる可能性がある。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
動的な推論アプローチは、ネットワークの奥行きと入力されたビデオフレームの数、さらには入力方向とネットワークの奥行き方向のジョイントな方法でも実現可能である。
簡単に言えば、計算グラフの入力フレームとネットワーク深さを2次元グリッドとして扱い、予測モジュールとともに予めいくつかのチェックポイントをグリッド上に配置する。
予め定義された経路に従ってグリッド上で段階的に推論を行い、チェックポイントを越えると、早期停止基準が満たされるかどうかに応じて早期予測を行うことができる。
概念実証のため、2つのよく知られたバックボーンCNNを用いて3つの動的推論フレームワークをインスタンス化する。
このような場合、新しいフレーム置換方式による早期予測による時間範囲制限の欠点を克服し、オンライン時間シフトモジュールを導入することで、プログレッシブ計算とビデオ時間関係モデリングの矛盾を軽減する。
我々のアイデアの有効性を徹底的に分析し,今後の研究活動に刺激を与えるために,広範な実験を行った。
各種データセットの結果も,我々のアプローチの優位性を示している。
関連論文リスト
- Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Modeling Temporal Concept Receptive Field Dynamically for Untrimmed
Video Analysis [105.06166692486674]
本稿では,概念に基づくイベント表現の時間的概念受容分野について考察する。
時間的動的畳み込み(TDC)を導入し、概念に基づくイベント分析をより柔軟にする。
異なる係数は、入力ビデオに応じて適切な時間的概念受容フィールドサイズを生成することができる。
論文 参考訳(メタデータ) (2021-11-23T04:59:48Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。
我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文 参考訳(メタデータ) (2021-08-23T20:23:57Z) - CDN-MEDAL: Two-stage Density and Difference Approximation Framework for
Motion Analysis [3.337126420148156]
本稿では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。
筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンに対する迅速な収束は維持されている。
論文 参考訳(メタデータ) (2021-06-07T16:39:42Z) - TrackMPNN: A Message Passing Graph Neural Architecture for Multi-Object
Tracking [8.791710193028903]
本研究は,グラフに基づくデータ構造を用いて問題をモデル化する多目的追跡(MOT)への多くの従来のアプローチに従う。
複数のタイムステップにまたがるデータ関連問題を表す動的無方向性グラフに基づくフレームワークを作成する。
また、メモリ効率が高く、リアルタイムなオンラインアルゴリズムを作成するために対処する必要がある計算問題に対するソリューションと提案も提供します。
論文 参考訳(メタデータ) (2021-01-11T21:52:25Z) - Improving Video Instance Segmentation by Light-weight Temporal
Uncertainty Estimates [11.580916951856256]
本稿では,インスタンスセグメンテーションネットワークの不確かさをモデル化するための時間動的手法を提案する。
本稿では,偽陽性の検出と予測品質の推定に本手法を適用した。
提案手法は、容易に訓練されたニューラルネットワークとビデオシーケンス入力のみを必要とする。
論文 参考訳(メタデータ) (2020-12-14T13:39:05Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。