論文の概要: Video Self-Stitching Graph Network for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2011.14598v4
- Date: Sat, 30 Mar 2024 09:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 16:23:34.916172
- Title: Video Self-Stitching Graph Network for Temporal Action Localization
- Title(参考訳): 時間的行動ローカライゼーションのためのビデオセルフストレッチグラフネットワーク
- Authors: Chen Zhao, Ali Thabet, Bernard Ghanem,
- Abstract要約: ビデオセルフスティッチグラフネットワーク(VSGN)と呼ばれるマルチレベルクロススケールソリューションを提案する。
VSGNにはビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)という2つの重要なコンポーネントがあります。
我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。
- 参考スコア(独自算出の注目度): 54.1254121061467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) in videos is a challenging task, especially due to the large variation in action temporal scales. Short actions usually occupy a major proportion in the datasets, but tend to have the lowest performance. In this paper, we confront the challenge of short actions and propose a multi-level cross-scale solution dubbed as video self-stitching graph network (VSGN). We have two key components in VSGN: video self-stitching (VSS) and cross-scale graph pyramid network (xGPN). In VSS, we focus on a short period of a video and magnify it along the temporal dimension to obtain a larger scale. We stitch the original clip and its magnified counterpart in one input sequence to take advantage of the complementary properties of both scales. The xGPN component further exploits the cross-scale correlations by a pyramid of cross-scale graph networks, each containing a hybrid module to aggregate features from across scales as well as within the same scale. Our VSGN not only enhances the feature representations, but also generates more positive anchors for short actions and more short training samples. Experiments demonstrate that VSGN obviously improves the localization performance of short actions as well as achieving the state-of-the-art overall performance on THUMOS-14 and ActivityNet-v1.3.
- Abstract(参考訳): ビデオにおける時間的行動ローカライゼーション(TAL)は、特に行動時間スケールの変動が大きいため、難しい課題である。
短いアクションは通常データセットで大きな割合を占めるが、パフォーマンスは低い傾向にある。
本稿では,ショートアクションの課題に直面し,VSGN(Video Self-Stitching Graph Network)と呼ばれるマルチレベルクロススケールソリューションを提案する。
VSGNには、ビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)の2つの重要なコンポーネントがあります。
VSSでは、ビデオの短い時間に焦点を合わせ、時間次元に沿って拡大し、より大きなスケールを得る。
元のクリップとその拡大されたクリップを1つの入力シーケンスで縫合し、両スケールの相補的特性を利用する。
xGPNコンポーネントはさらに、クロススケールグラフネットワークのピラミッドによるクロススケール相関を利用しており、それぞれが複数のスケールから同じスケールの機能を集約するハイブリッドモジュールを含んでいる。
我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。
実験によると、VSGNは明らかにショートアクションのローカライズ性能を改善し、THUMOS-14とActivityNet-v1.3の全体的なパフォーマンスを達成する。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - An end-to-end multi-scale network for action prediction in videos [31.967024536359908]
エンド・ツー・エンド方式で部分的なビデオのアクション・クラスを予測するための効率的なマルチスケール・ネットワークを開発した。
我々のE2EMSNetは、BIT、HMDB51、UCF101という3つの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2022-12-31T06:58:41Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization [39.377289930528555]
教師なしビデオにおける弱いトリミング時間的行動ローカライゼーション(WTAL)は,ビデオレベルラベルのみが利用可能であるため,実用的ではあるが困難な課題となっている。
既存のアプローチは、通常、空間的不完全性と時間的不整合に苦しむ、既成のセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワークを用いてセグメントレベルの表現を強化することで,この問題に対処する。
論文 参考訳(メタデータ) (2021-12-21T04:18:44Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。