論文の概要: Local Compressed Video Stream Learning for Generic Event Boundary
Detection
- arxiv url: http://arxiv.org/abs/2309.15431v1
- Date: Wed, 27 Sep 2023 06:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 16:50:09.161006
- Title: Local Compressed Video Stream Learning for Generic Event Boundary
Detection
- Title(参考訳): 汎用イベント境界検出のための局所圧縮ビデオストリーム学習
- Authors: Libo Zhang, Xin Gu, Congcong Li, Tiejian Luo, Heng Fan
- Abstract要約: イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
- 参考スコア(独自算出の注目度): 25.37983456118522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic event boundary detection aims to localize the generic, taxonomy-free
event boundaries that segment videos into chunks. Existing methods typically
require video frames to be decoded before feeding into the network, which
contains significant spatio-temporal redundancy and demands considerable
computational power and storage space. To remedy these issues, we propose a
novel compressed video representation learning method for event boundary
detection that is fully end-to-end leveraging rich information in the
compressed domain, i.e., RGB, motion vectors, residuals, and the internal group
of pictures (GOP) structure, without fully decoding the video. Specifically, we
use lightweight ConvNets to extract features of the P-frames in the GOPs and
spatial-channel attention module (SCAM) is designed to refine the feature
representations of the P-frames based on the compressed information with
bidirectional information flow. To learn a suitable representation for boundary
detection, we construct the local frames bag for each candidate frame and use
the long short-term memory (LSTM) module to capture temporal relationships. We
then compute frame differences with group similarities in the temporal domain.
This module is only applied within a local window, which is critical for event
boundary detection. Finally a simple classifier is used to determine the event
boundaries of video sequences based on the learned feature representation. To
remedy the ambiguities of annotations and speed up the training process, we use
the Gaussian kernel to preprocess the ground-truth event boundaries. Extensive
experiments conducted on the Kinetics-GEBD and TAPOS datasets demonstrate that
the proposed method achieves considerable improvements compared to previous
end-to-end approach while running at the same speed. The code is available at
https://github.com/GX77/LCVSL.
- Abstract(参考訳): ジェネリックイベント境界検出は、ビデオをチャンクに分割する、ジェネリックで分類のないイベント境界をローカライズすることを目的としている。
既存の手法では、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
これらの問題を解決するために,圧縮領域のリッチな情報,すなわちRGB,運動ベクトル,残差,および内部画像群(GOP)を完全復号化せずに完全にエンドツーエンドに活用する,イベント境界検出のための圧縮ビデオ表現学習手法を提案する。
具体的には、軽量なConvNetを用いて、GOPにおけるPフレームの特徴を抽出し、双方向情報フローで圧縮された情報に基づいてPフレームの特徴表現を洗練するように設計されている。
境界検出に適した表現を学習するために、各候補フレームのローカルフレームバッグを構築し、長短期メモリ(LSTM)モジュールを用いて時間的関係をキャプチャする。
次に、時間領域における群類似性によるフレーム差を計算する。
このモジュールはローカルウィンドウ内でのみ適用され、イベント境界検出に不可欠である。
最後に、単純な分類器を用いて、学習した特徴表現に基づいて、ビデオシーケンスのイベント境界を決定する。
アノテーションの曖昧さを軽減し、トレーニングプロセスを高速化するために、Gaussianカーネルを使用して、基幹のイベント境界を前処理する。
Kinetics-GEBD と TAPOS のデータセットを用いて行った大規模な実験により,提案手法は,同じ速度で動作する場合の従来のエンドツーエンドアプローチと比較して,かなり改善されていることが示された。
コードはhttps://github.com/gx77/lcvslで入手できる。
関連論文リスト
- ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards
Video Object Detection [28.879484515844375]
統合強化のための時間情報と空間情報の両方を導入するための進歩的な方法を導入する。
PTSEFormerは、ImageNet VIDデータセットで88.1%のmAPを達成しながら、重い後処理手順を避けるために、エンドツーエンドのスタイルに従っている。
論文 参考訳(メタデータ) (2022-09-06T06:32:57Z) - Structured Context Transformer for Generic Event Boundary Detection [32.09242716244653]
我々は、ジェネリックイベント境界検出タスクを解決するために、構造化コンテキスト変換器(SC-Transformer)を提案する。
バックボーン畳み込みニューラルネットワーク(CNN)を用いて,各ビデオフレームの特徴を抽出する。
グループ化された類似性マップに基づいてイベント境界を決定するために、軽量な完全畳み込みネットワークが使用される。
論文 参考訳(メタデータ) (2022-06-07T03:00:24Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection [48.33132632418303]
ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
論文 参考訳(メタデータ) (2022-03-01T09:31:30Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - BlockCopy: High-Resolution Video Processing with Block-Sparse Feature
Propagation and Online Policies [57.62315799929681]
BlockCopyは、事前訓練されたフレームベースのCNNを高速化して、より効率的にビデオを処理するスキームである。
軽量ポリシーネットワークは、画像内の重要領域を決定し、選択された領域のみに操作を適用する。
非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
論文 参考訳(メタデータ) (2021-08-20T21:16:01Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation [8.013823319651395]
ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
論文 参考訳(メタデータ) (2021-02-26T14:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。