論文の概要: Generic Event Boundary Detection in Video with Pyramid Features
- arxiv url: http://arxiv.org/abs/2301.04288v1
- Date: Wed, 11 Jan 2023 03:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 16:54:14.453664
- Title: Generic Event Boundary Detection in Video with Pyramid Features
- Title(参考訳): ピラミッド機能付きビデオにおける事象境界検出
- Authors: Van Thong Huynh, Hyung-Jeong Yang, Guee-Sang Lee, Soo-Hyung Kim
- Abstract要約: ジェネリックイベントバウンダリ検出(GEBD)は、人間が自然にイベントバウンダリを知覚する幅広い多様なアクションセットで、ビデオをチャンクに分割することを目的としている。
本稿では,隣接するフレームとピラミッド特徴写像の空間次元と時間次元の相関を考察する。
- 参考スコア(独自算出の注目度): 12.896848011230523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generic event boundary detection (GEBD) aims to split video into chunks at a
broad and diverse set of actions as humans naturally perceive event boundaries.
In this study, we present an approach that considers the correlation between
neighbor frames with pyramid feature maps in both spatial and temporal
dimensions to construct a framework for localizing generic events in video. The
features at multiple spatial dimensions of a pre-trained ResNet-50 are
exploited with different views in the temporal dimension to form a temporal
pyramid feature map. Based on that, the similarity between neighbor frames is
calculated and projected to build a temporal pyramid similarity feature vector.
A decoder with 1D convolution operations is used to decode these similarities
to a new representation that incorporates their temporal relationship for later
boundary score estimation. Extensive experiments conducted on the GEBD
benchmark dataset show the effectiveness of our system and its variations, in
which we outperformed the state-of-the-art approaches. Additional experiments
on TAPOS dataset, which contains long-form videos with Olympic sport actions,
demonstrated the effectiveness of our study compared to others.
- Abstract(参考訳): ジェネリックイベントバウンダリ検出(GEBD)は、人間が自然にイベントバウンダリを知覚する幅広い多様なアクションセットで、ビデオをチャンクに分割することを目的としている。
本研究では,映像中のジェネリックイベントをローカライズする枠組みを構築するために,隣接するフレームとピラミッドの特徴マップの空間次元と時間次元の相関を考察する手法を提案する。
事前訓練されたResNet-50の空間次元における特徴は、時間次元の異なる視点で利用し、時間ピラミッド特徴写像を形成する。
それに基づいて、隣接フレーム間の類似度を計算し、時間的ピラミッド類似性特徴ベクトルを構築するように投影する。
1次元畳み込み演算を持つデコーダを使用して、これらの類似性を、後の境界スコア推定のための時間的関係を含む新しい表現にデコードする。
GEBDベンチマークデータセットで行った大規模な実験は、我々のシステムの有効性とそのバリエーションを示し、最先端のアプローチよりも優れていた。
オリンピックのスポーツ行動を含む長編ビデオを含むTAPOSデータセットに関する追加実験は,他と比較して,本研究の有効性を実証した。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Mumpy: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection [41.4800103693756]
本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器(em MumPy)について紹介する。
提案手法は, 空間的・時間的手がかりの様々な協調関係を抽出するために, 新たに設計された多面的時間的視点を用いて, 変形可能なウィンドウベース時間的対話モジュールを導入する。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
論文 参考訳(メタデータ) (2024-04-17T03:56:28Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Structured Context Transformer for Generic Event Boundary Detection [32.09242716244653]
我々は、ジェネリックイベント境界検出タスクを解決するために、構造化コンテキスト変換器(SC-Transformer)を提案する。
バックボーン畳み込みニューラルネットワーク(CNN)を用いて,各ビデオフレームの特徴を抽出する。
グループ化された類似性マップに基づいてイベント境界を決定するために、軽量な完全畳み込みネットワークが使用される。
論文 参考訳(メタデータ) (2022-06-07T03:00:24Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。