論文の概要: No frame left behind: Full Video Action Recognition
- arxiv url: http://arxiv.org/abs/2103.15395v1
- Date: Mon, 29 Mar 2021 07:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 02:14:43.038375
- Title: No frame left behind: Full Video Action Recognition
- Title(参考訳): 残っていないフレーム:フルビデオアクション認識
- Authors: Xin Liu, Silvia L. Pintea, Fatemeh Karimi Nejadasl, Olaf Booij, Jan C.
van Gemert
- Abstract要約: 我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
- 参考スコア(独自算出の注目度): 26.37329995193377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Not all video frames are equally informative for recognizing an action. It is
computationally infeasible to train deep networks on all video frames when
actions develop over hundreds of frames. A common heuristic is uniformly
sampling a small number of video frames and using these to recognize the
action. Instead, here we propose full video action recognition and consider all
video frames. To make this computational tractable, we first cluster all frame
activations along the temporal dimension based on their similarity with respect
to the classification task, and then temporally aggregate the frames in the
clusters into a smaller number of representations. Our method is end-to-end
trainable and computationally efficient as it relies on temporally localized
clustering in combination with fast Hamming distances in feature space. We
evaluate on UCF101, HMDB51, Breakfast, and Something-Something V1 and V2, where
we compare favorably to existing heuristic frame sampling methods.
- Abstract(参考訳): すべてのビデオフレームがアクションを認識するのに等しく役に立つわけではない。
アクションが数百フレームを超えると、すべてのビデオフレームでディープネットワークをトレーニングすることは不可能である。
一般的なヒューリスティックは、少数のビデオフレームを一様にサンプリングし、それらを使用してアクションを認識する。
代わりに、ビデオのフルアクション認識を提案し、すべてのビデオフレームについて検討する。
この計算を扱いやすくするために,まず,分類タスクの類似性に基づいて時間次元に沿ってすべてのフレームアクティベーションをクラスタ化し,その後,クラスタ内のフレームをより少ない数の表現に時間的に集約する。
本手法は,時間的局所化クラスタリングと特徴空間内の高速ハミング距離の組み合わせに依存するため,エンドツーエンドでトレーニング可能であり,計算効率が高い。
我々は,UCF101,HMDB51,Breakfast,Something V1,V2の評価を行い,既存のヒューリスティックフレームサンプリング法と比較した。
関連論文リスト
- Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Video Instance Segmentation using Inter-Frame Communication Transformers [28.539742250704695]
最近では、フレーム単位のパイプラインは、フレーム単位のメソッドよりも優れたパフォーマンスを示している。
以前は、フレーム間通信を実現するために、大量の計算とメモリ使用量が必要だった。
フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信変換器(IFC)を提案する。
論文 参考訳(メタデータ) (2021-06-07T02:08:39Z) - An Image is Worth 16x16 Words, What is a Video Worth? [14.056790511123866]
State of the Art (SotA) の精度に達する方法は通常、3D畳み込み層をビデオフレームから時間情報を抽象化する方法として利用する。
各ショートクリップは入力ビデオのごく一部をカバーするため、ビデオの全時間長をカバーするために複数のクリップを推論時にサンプリングする。
我々は,推論に必要なフレーム数を大幅に削減することで,計算ボトルネックに対処する。
論文 参考訳(メタデータ) (2021-03-25T15:25:17Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。