論文の概要: End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection
- arxiv url: http://arxiv.org/abs/2203.15336v1
- Date: Tue, 29 Mar 2022 08:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 02:58:28.971649
- Title: End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection
- Title(参考訳): 汎用イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習
- Authors: Congcong Li, Xinyao Wang, Longyin Wen, Dexiang Hong, Tiejian Luo, Libo
Zhang
- Abstract要約: イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
- 参考スコア(独自算出の注目度): 31.31508043234419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generic event boundary detection aims to localize the generic, taxonomy-free
event boundaries that segment videos into chunks. Existing methods typically
require video frames to be decoded before feeding into the network, which
demands considerable computational power and storage space. To that end, we
propose a new end-to-end compressed video representation learning for event
boundary detection that leverages the rich information in the compressed
domain, i.e., RGB, motion vectors, residuals, and the internal group of
pictures (GOP) structure, without fully decoding the video. Specifically, we
first use the ConvNets to extract features of the I-frames in the GOPs. After
that, a light-weight spatial-channel compressed encoder is designed to compute
the feature representations of the P-frames based on the motion vectors,
residuals and representations of their dependent I-frames. A temporal
contrastive module is proposed to determine the event boundaries of video
sequences. To remedy the ambiguities of annotations and speed up the training
process, we use the Gaussian kernel to preprocess the ground-truth event
boundaries. Extensive experiments conducted on the Kinetics-GEBD dataset
demonstrate that the proposed method achieves comparable results to the
state-of-the-art methods with $4.5\times$ faster running speed.
- Abstract(参考訳): ジェネリックイベント境界検出は、ビデオをチャンクに分割する、ジェネリックで分類のないイベント境界をローカライズすることを目的としている。
既存の方法では、ネットワークに送信する前にビデオフレームをデコードする必要があるため、計算能力とストレージスペースが必要となる。
そこで本研究では,圧縮領域のリッチな情報,すなわちRGB,運動ベクトル,残差,および内部画像群(GOP)構造を完全復号化せずに活用する,イベント境界検出のための新しいエンドツーエンド圧縮ビデオ表現学習を提案する。
具体的には、まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、従属iフレームの運動ベクトル、残差、表現に基づいて、pフレームの特徴表現を計算するために軽量な空間チャネル圧縮エンコーダが設計される。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
アノテーションの曖昧さを軽減し、トレーニングプロセスを高速化するために、Gaussianカーネルを使用して、基幹のイベント境界を前処理する。
Kinetics-GEBDデータセットで行った大規模な実験により,提案手法は動作速度が4.5\times$の最先端手法に匹敵する結果が得られることを示した。
関連論文リスト
- Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using
a New Frame Selection Policy and Gating Mechanism [8.395400675921515]
Gated-ViGATは、ビデオイベント認識のための効率的なアプローチである。
ボトムアップ(オブジェクト)情報、新しいフレームサンプリングポリシー、ゲーティングメカニズムを使用する。
Gated-ViGATは,従来の手法と比較して計算量を大幅に削減する。
論文 参考訳(メタデータ) (2023-01-18T14:36:22Z) - Structured Context Transformer for Generic Event Boundary Detection [32.09242716244653]
我々は、ジェネリックイベント境界検出タスクを解決するために、構造化コンテキスト変換器(SC-Transformer)を提案する。
バックボーン畳み込みニューラルネットワーク(CNN)を用いて,各ビデオフレームの特徴を抽出する。
グループ化された類似性マップに基づいてイベント境界を決定するために、軽量な完全畳み込みネットワークが使用される。
論文 参考訳(メタデータ) (2022-06-07T03:00:24Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection [48.33132632418303]
ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
論文 参考訳(メタデータ) (2022-03-01T09:31:30Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial
Decoding [22.12530692711095]
グループ・オブ・ピクチャーズ(GOP)の概念を用いた生映像ストリームの表現による映像圧縮
本稿では,GOPレベルに基づく部分復号化ビデオから,ネットワークのインプットをサンプリングする。
RGBのみを用いたベースラインと比較して,TEAM-Netの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-17T12:56:03Z) - BlockCopy: High-Resolution Video Processing with Block-Sparse Feature
Propagation and Online Policies [57.62315799929681]
BlockCopyは、事前訓練されたフレームベースのCNNを高速化して、より効率的にビデオを処理するスキームである。
軽量ポリシーネットワークは、画像内の重要領域を決定し、選択された領域のみに操作を適用する。
非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
論文 参考訳(メタデータ) (2021-08-20T21:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。