論文の概要: FrameExit: Conditional Early Exiting for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2104.13400v1
- Date: Tue, 27 Apr 2021 18:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 22:42:07.497022
- Title: FrameExit: Conditional Early Exiting for Efficient Video Recognition
- Title(参考訳): FrameExit:効率的なビデオ認識のための条件付き早期出力
- Authors: Amir Ghodrati, Babak Ehteshami Bejnordi, Amirhossein Habibian
- Abstract要約: 効率的なビデオ認識のための条件付き早期終了フレームワークを提案する。
私たちのモデルは、単純なビデオのフレーム数を減らし、複雑なビデオのフレーム数を増やすことを学びます。
提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。
- 参考スコア(独自算出の注目度): 11.92976432364216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a conditional early exiting framework for efficient
video recognition. While existing works focus on selecting a subset of salient
frames to reduce the computation costs, we propose to use a simple sampling
strategy combined with conditional early exiting to enable efficient
recognition. Our model automatically learns to process fewer frames for simpler
videos and more frames for complex ones. To achieve this, we employ a cascade
of gating modules to automatically determine the earliest point in processing
where an inference is sufficiently reliable. We generate on-the-fly supervision
signals to the gates to provide a dynamic trade-off between accuracy and
computational cost. Our proposed model outperforms competing methods on three
large-scale video benchmarks. In particular, on ActivityNet1.3 and
mini-kinetics, we outperform the state-of-the-art efficient video recognition
methods with 1.3$\times$ and 2.1$\times$ less GFLOPs, respectively.
Additionally, our method sets a new state of the art for efficient video
understanding on the HVU benchmark.
- Abstract(参考訳): 本稿では,効率的な映像認識のための条件付き早期終了フレームワークを提案する。
既存の作業では,計算コストを削減すべく,サラエントフレームのサブセットの選択に重点を置いているが,条件付き早期終了と組み合わせた単純なサンプリング戦略を用いることにより,効率的な認識を実現する。
私たちのモデルは、より単純なビデオのフレーム数と複雑なビデオのフレーム数を自動的に学習します。
これを実現するために,ガティングモジュールのカスケードを用いて,推論が十分信頼できる処理における最初期の点を自動的に決定する。
ゲートにオンザフライで監視信号を生成し、精度と計算コストの動的トレードオフを提供する。
提案手法は3つの大規模ビデオベンチマークにおいて競合する手法より優れている。
特に activitynet1.3 と mini-kinetics では、最先端の効率的なビデオ認識手法をそれぞれ 1.3$\times$ と 2.1$\times$ less gflops で上回っている。
さらに,提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。
関連論文リスト
- RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - View while Moving: Efficient Video Recognition in Long-untrimmed Videos [17.560160747282147]
本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
提案手法は精度と効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-09T09:46:26Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。
挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文 参考訳(メタデータ) (2022-10-26T16:23:02Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。