論文の概要: GCF-Net: Gated Clip Fusion Network for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2102.01285v1
- Date: Tue, 2 Feb 2021 03:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:47:43.218031
- Title: GCF-Net: Gated Clip Fusion Network for Video Action Recognition
- Title(参考訳): GCF-Net:ビデオ行動認識のためのGated Clip Fusion Network
- Authors: Jenhao Hsiao and Jiawei Chen and Chiuman Ho
- Abstract要約: 本稿では,映像行動認識のためのGated Clip Fusion Network(GCF-Net)を紹介する。
GCF-Netは、ローカルクリップ記述子の受容領域を強化するために、ビデオクリップ間の依存性を明示的にモデル化する。
大規模なベンチマークデータセット(Kinetics-600)では、提案されたGCF-Netは既存のアクション分類器の精度を11.49%向上させる。
- 参考スコア(独自算出の注目度): 11.945392734711056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, most of the accuracy gains for video action recognition have
come from the newly designed CNN architectures (e.g., 3D-CNNs). These models
are trained by applying a deep CNN on single clip of fixed temporal length.
Since each video segment are processed by the 3D-CNN module separately, the
corresponding clip descriptor is local and the inter-clip relationships are
inherently implicit. Common method that directly averages the clip-level
outputs as a video-level prediction is prone to fail due to the lack of
mechanism that can extract and integrate relevant information to represent the
video.
In this paper, we introduce the Gated Clip Fusion Network (GCF-Net) that can
greatly boost the existing video action classifiers with the cost of a tiny
computation overhead. The GCF-Net explicitly models the inter-dependencies
between video clips to strengthen the receptive field of local clip
descriptors. Furthermore, the importance of each clip to an action event is
calculated and a relevant subset of clips is selected accordingly for a
video-level analysis. On a large benchmark dataset (Kinetics-600), the proposed
GCF-Net elevates the accuracy of existing action classifiers by 11.49% (based
on central clip) and 3.67% (based on densely sampled clips) respectively.
- Abstract(参考訳): 近年、ビデオアクション認識の精度向上のほとんどは、新しく設計されたCNNアーキテクチャ(例えば、3D-CNN)から来ている。
これらのモデルは、固定時間長の単一クリップにディープCNNを適用することで訓練される。
各ビデオセグメントは3D-CNNモジュールによって個別に処理されるため、対応するクリップディスクリプタはローカルであり、クリップ間の関係は本質的に暗黙的です。
ビデオレベルの予測としてクリップレベルの出力を直接平均化する一般的な方法は、ビデオを表すために関連情報を抽出および統合できるメカニズムの欠如のために失敗する傾向があります。
本稿では、既存のビデオアクション分類器を小さな計算オーバーヘッドのコストで大幅に向上させることができるGated Clip Fusion Network(GCF-Net)について紹介する。
GCF-Netは、ビデオクリップ間の依存性を明示的にモデル化し、ローカルクリップディスクリプタの受容フィールドを強化します。
さらに、アクションイベントに対する各クリップの重要性を計算し、関連するクリップのサブセットを選択してビデオレベルの分析を行う。
大規模なベンチマークデータセット(Kinetics-600)では、提案されたGCF-Netは、それぞれ11.49%(中央クリップに基づく)と3.67%(高密度サンプリングクリップに基づく)の既存のアクション分類器の精度を高める。
関連論文リスト
- CSTA: CNN-based Spatiotemporal Attention for Video Summarization [0.24578723416255752]
本稿では,CNN をベースとした SpatioTemporal Attention (CSTA) 手法を提案する。
提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。
論文 参考訳(メタデータ) (2024-05-20T09:38:37Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Spatio-temporal Co-attention Fusion Network for Video Splicing
Localization [2.3838507844983248]
3ストリームネットワークは、複数のフレームにわたる操作トレースをキャプチャするためにエンコーダとして使用される。
軽量多層パーセプトロン(MLP)デコーダを採用し、画素レベルのタンパリングローカライゼーションマップを生成する。
SCFNetをトレーニングするために、新しい大規模ビデオスプライシングが作成されている。
論文 参考訳(メタデータ) (2023-09-18T04:46:30Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Video K-Net: A Simple, Strong, and Unified Baseline for Video
Segmentation [85.08156742410527]
Video K-Netは、エンドツーエンドのビデオパノラマセグメンテーションのためのフレームワークである。
学習可能なカーネルのグループを通じてイメージセグメンテーションを統一する。
Video K-Netが"things"と"stuff"を同時にセグメンテーションし追跡することを学ぶ
論文 参考訳(メタデータ) (2022-04-10T11:24:47Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Skimming and Scanning for Untrimmed Video Action Recognition [44.70501912319826]
非トリミングビデオには、コンテキスト情報を含む冗長で多様なクリップがある。
skim-scan技術に基づく,単純かつ効果的なクリップレベルソリューションを提案する。
我々のソリューションは、精度と効率の両面で最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-04-21T12:23:44Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。