論文の概要: Video Self-Stitching Graph Network for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2011.14598v3
- Date: Tue, 30 Mar 2021 05:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:48:36.253114
- Title: Video Self-Stitching Graph Network for Temporal Action Localization
- Title(参考訳): 時間的行動定位のためのビデオ自己stitching graph network
- Authors: Chen Zhao, Ali Thabet, Bernard Ghanem
- Abstract要約: ビデオセルフスティッチグラフネットワーク(VSGN)と呼ばれるマルチレベルクロススケールソリューションを提案する。
VSGNにはビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)という2つの重要なコンポーネントがあります。
我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。
- 参考スコア(独自算出の注目度): 72.6522415501252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) in videos is a challenging task,
especially due to the large variation in action temporal scales. Short actions
usually occupy the major proportion in the data, but have the lowest
performance with all current methods. In this paper, we confront the challenge
of short actions and propose a multi-level cross-scale solution dubbed as video
self-stitching graph network (VSGN). We have two key components in VSGN: video
self-stitching (VSS) and cross-scale graph pyramid network (xGPN). In VSS, we
focus on a short period of a video and magnify it along the temporal dimension
to obtain a larger scale. We stitch the original clip and its magnified
counterpart in one input sequence to take advantage of the complementary
properties of both scales. The xGPN component further exploits the cross-scale
correlations by a pyramid of cross-scale graph networks, each containing a
hybrid module to aggregate features from across scales as well as within the
same scale. Our VSGN not only enhances the feature representations, but also
generates more positive anchors for short actions and more short training
samples. Experiments demonstrate that VSGN obviously improves the localization
performance of short actions as well as achieving the state-of-the-art overall
performance on THUMOS-14 and ActivityNet-v1.3.
- Abstract(参考訳): ビデオにおける時間的行動ローカライゼーション(TAL)は、特に行動時間スケールの大きな変化のために難しい課題である。
ショートアクションは通常、データの主要な割合を占めるが、現在のすべてのメソッドで最低パフォーマンスを持つ。
本稿では,ショートアクションの課題に直面し,VSGN(Video Self-Stitching Graph Network)と呼ばれるマルチレベルクロススケールソリューションを提案する。
VSGNには、ビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)の2つの重要なコンポーネントがあります。
VSSでは、ビデオの短い時間に焦点を合わせ、時間次元に沿って拡大し、より大きなスケールを得る。
1つの入力シーケンスで元のクリップと拡大したクリップを縫い合わせることで、両方のスケールの相補的な特性を生かした。
xGPNコンポーネントはさらに、クロススケールグラフネットワークのピラミッドによるクロススケール相関を利用しており、それぞれが複数のスケールから同じスケールの機能を集約するハイブリッドモジュールを含んでいる。
我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。
実験によると、VSGNは明らかにショートアクションのローカライズ性能を改善し、THUMOS-14とActivityNet-v1.3の全体的なパフォーマンスを達成する。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - An end-to-end multi-scale network for action prediction in videos [31.967024536359908]
エンド・ツー・エンド方式で部分的なビデオのアクション・クラスを予測するための効率的なマルチスケール・ネットワークを開発した。
我々のE2EMSNetは、BIT、HMDB51、UCF101という3つの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2022-12-31T06:58:41Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization [39.377289930528555]
教師なしビデオにおける弱いトリミング時間的行動ローカライゼーション(WTAL)は,ビデオレベルラベルのみが利用可能であるため,実用的ではあるが困難な課題となっている。
既存のアプローチは、通常、空間的不完全性と時間的不整合に苦しむ、既成のセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワークを用いてセグメントレベルの表現を強化することで,この問題に対処する。
論文 参考訳(メタデータ) (2021-12-21T04:18:44Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。