論文の概要: FrameExit: Conditional Early Exiting for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2104.13400v1
- Date: Tue, 27 Apr 2021 18:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 22:42:07.497022
- Title: FrameExit: Conditional Early Exiting for Efficient Video Recognition
- Title(参考訳): FrameExit:効率的なビデオ認識のための条件付き早期出力
- Authors: Amir Ghodrati, Babak Ehteshami Bejnordi, Amirhossein Habibian
- Abstract要約: 効率的なビデオ認識のための条件付き早期終了フレームワークを提案する。
私たちのモデルは、単純なビデオのフレーム数を減らし、複雑なビデオのフレーム数を増やすことを学びます。
提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。
- 参考スコア(独自算出の注目度): 11.92976432364216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a conditional early exiting framework for efficient
video recognition. While existing works focus on selecting a subset of salient
frames to reduce the computation costs, we propose to use a simple sampling
strategy combined with conditional early exiting to enable efficient
recognition. Our model automatically learns to process fewer frames for simpler
videos and more frames for complex ones. To achieve this, we employ a cascade
of gating modules to automatically determine the earliest point in processing
where an inference is sufficiently reliable. We generate on-the-fly supervision
signals to the gates to provide a dynamic trade-off between accuracy and
computational cost. Our proposed model outperforms competing methods on three
large-scale video benchmarks. In particular, on ActivityNet1.3 and
mini-kinetics, we outperform the state-of-the-art efficient video recognition
methods with 1.3$\times$ and 2.1$\times$ less GFLOPs, respectively.
Additionally, our method sets a new state of the art for efficient video
understanding on the HVU benchmark.
- Abstract(参考訳): 本稿では,効率的な映像認識のための条件付き早期終了フレームワークを提案する。
既存の作業では,計算コストを削減すべく,サラエントフレームのサブセットの選択に重点を置いているが,条件付き早期終了と組み合わせた単純なサンプリング戦略を用いることにより,効率的な認識を実現する。
私たちのモデルは、より単純なビデオのフレーム数と複雑なビデオのフレーム数を自動的に学習します。
これを実現するために,ガティングモジュールのカスケードを用いて,推論が十分信頼できる処理における最初期の点を自動的に決定する。
ゲートにオンザフライで監視信号を生成し、精度と計算コストの動的トレードオフを提供する。
提案手法は3つの大規模ビデオベンチマークにおいて競合する手法より優れている。
特に activitynet1.3 と mini-kinetics では、最先端の効率的なビデオ認識手法をそれぞれ 1.3$\times$ と 2.1$\times$ less gflops で上回っている。
さらに,提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。
関連論文リスト
- Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文 参考訳(メタデータ) (2025-02-11T16:58:15Z) - Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
現在のビデオモデルは、通常、重い画像エンコーダ(300M-1.1Bパラメータ)またはビデオエンコーダ(1B-1.4Bパラメータ)に依存している。
本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。
本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:59:56Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - View while Moving: Efficient Video Recognition in Long-untrimmed Videos [17.560160747282147]
本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
提案手法は精度と効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-09T09:46:26Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。
挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文 参考訳(メタデータ) (2022-10-26T16:23:02Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。