論文の概要: OCSampler: Compressing Videos to One Clip with Single-step Sampling
- arxiv url: http://arxiv.org/abs/2201.04388v1
- Date: Wed, 12 Jan 2022 09:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 14:54:36.821594
- Title: OCSampler: Compressing Videos to One Clip with Single-step Sampling
- Title(参考訳): OCSampler:シングルステップサンプリングで動画を1クリックに圧縮
- Authors: Jintao Lin, Haodong Duan, Kai Chen, Dahua Lin, Limin Wang
- Abstract要約: 本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
- 参考スコア(独自算出の注目度): 82.0417131211353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a framework named OCSampler to explore a compact
yet effective video representation with one short clip for efficient video
recognition. Recent works prefer to formulate frame sampling as a sequential
decision task by selecting frames one by one according to their importance,
while we present a new paradigm of learning instance-specific video
condensation policies to select informative frames for representing the entire
video only in a single step. Our basic motivation is that the efficient video
recognition task lies in processing a whole sequence at once rather than
picking up frames sequentially. Accordingly, these policies are derived from a
light-weighted skim network together with a simple yet effective policy network
within one step. Moreover, we extend the proposed method with a frame number
budget, enabling the framework to produce correct predictions in high
confidence with as few frames as possible. Experiments on four benchmarks,
i.e., ActivityNet, Mini-Kinetics, FCVID, Mini-Sports1M, demonstrate the
effectiveness of our OCSampler over previous methods in terms of accuracy,
theoretical computational expense, actual inference speed. We also evaluate its
generalization power across different classifiers, sampled frames, and search
spaces. Especially, we achieve 76.9% mAP and 21.7 GFLOPs on ActivityNet with an
impressive throughput: 123.9 Videos/s on a single TITAN Xp GPU.
- Abstract(参考訳): 本稿では,コンパクトで効果的な映像表現を1つの短いクリップで探索し,効率的な映像認識を行うocsamplerというフレームワークを提案する。
最近の研究は、フレームを重要度に応じて1つずつ選択することで、フレームサンプリングを逐次決定タスクとして定式化することを好む一方で、単一のステップでビデオ全体を表現するための情報フレームを選択するために、インスタンス固有のビデオ凝縮ポリシーを学習する新たなパラダイムを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
したがって、これらのポリシーは1ステップ以内に単純で効果的なポリシーネットワークと共に軽量のスキムネットワークから導かれる。
さらに,提案手法をフレーム数予算で拡張することにより,フレーム数が少なく,高い信頼度で正確な予測を行うことが可能となる。
ActivityNet、Mini-Kinetics、FCVID、Mini-Sports1Mの4つのベンチマーク実験では、OCSamplerが従来の手法よりも精度、理論的計算コスト、実際の推論速度で有効であることを実証した。
また,分類器,サンプルフレーム,検索空間にまたがる一般化力を評価した。
特に、アクティブネット上で76.9%のマップと21.7gflopsを達成し、1つのtitan xp gpu上で123.9ビデオ/秒という驚くべきスループットを実現しました。
関連論文リスト
- An Empirical Comparison of Video Frame Sampling Methods for Multi-Modal RAG Retrieval [1.6581184950812533]
自然言語質問を用いたビデオ・フレーム検索におけるフレームサンプリング手法のトレードオフについて検討する。
本稿では,ビデオRAGパターンが必要とするベクトルデータベース内の画像データ(ビデオフレーム)の保存と検索に焦点を当てた。
論文 参考訳(メタデータ) (2024-07-22T11:44:08Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - FrameExit: Conditional Early Exiting for Efficient Video Recognition [11.92976432364216]
効率的なビデオ認識のための条件付き早期終了フレームワークを提案する。
私たちのモデルは、単純なビデオのフレーム数を減らし、複雑なビデオのフレーム数を増やすことを学びます。
提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。
論文 参考訳(メタデータ) (2021-04-27T18:01:05Z) - No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文 参考訳(メタデータ) (2021-03-29T07:44:28Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。