論文の概要: TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial
Decoding
- arxiv url: http://arxiv.org/abs/2110.08814v1
- Date: Sun, 17 Oct 2021 12:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 11:29:14.424603
- Title: TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial
Decoding
- Title(参考訳): TEAM-Net:部分復号化によるビデオ行動認識のためのマルチモーダル学習
- Authors: Zhengwei Wang, Qi She, Aljosa Smolic
- Abstract要約: グループ・オブ・ピクチャーズ(GOP)の概念を用いた生映像ストリームの表現による映像圧縮
本稿では,GOPレベルに基づく部分復号化ビデオから,ネットワークのインプットをサンプリングする。
RGBのみを用いたベースラインと比較して,TEAM-Netの優れた性能を示す。
- 参考スコア(独自算出の注目度): 22.12530692711095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of existing video action recognition models ingest raw RGB frames.
However, the raw video stream requires enormous storage and contains
significant temporal redundancy. Video compression (e.g., H.264, MPEG-4)
reduces superfluous information by representing the raw video stream using the
concept of Group of Pictures (GOP). Each GOP is composed of the first I-frame
(aka RGB image) followed by a number of P-frames, represented by motion vectors
and residuals, which can be regarded and used as pre-extracted features. In
this work, we 1) introduce sampling the input for the network from partially
decoded videos based on the GOP-level, and 2) propose a plug-and-play
mulTi-modal lEArning Module (TEAM) for training the network using information
from I-frames and P-frames in an end-to-end manner. We demonstrate the superior
performance of TEAM-Net compared to the baseline using RGB only. TEAM-Net also
achieves the state-of-the-art performance in the area of video action
recognition with partial decoding. Code is provided at
https://github.com/villawang/TEAM-Net.
- Abstract(参考訳): 既存のビデオアクション認識モデルのほとんどは生のRGBフレームを取り込みます。
しかし、生のビデオストリームには膨大なストレージが必要であり、時間的冗長性も大きい。
ビデオ圧縮(H.264、MPEG-4)は、グループ・オブ・ピクチャーズ(GOP)という概念を用いて生のビデオストリームを表現することで、過剰な情報を減らす。
各GOPは、最初のIフレーム(別名RGB画像)と、多数のPフレームで構成され、動きベクトルと残差で表され、事前抽出された特徴と見なすことができる。
この作品では、
1)GOPレベルに基づく部分復号化ビデオからネットワークの入力をサンプリングし、
2) IフレームとPフレームからの情報を用いてネットワークをエンドツーエンドにトレーニングするためのプラグアンドプレイ mulTi-modal lEArning Module (TEAM) を提案する。
RGBのみを用いたベースラインと比較して,TEAM-Netの優れた性能を示す。
TEAM-Netは、部分的復号化を伴うビデオアクション認識領域における最先端のパフォーマンスも達成している。
コードはhttps://github.com/villawang/TEAM-Netで提供されている。
関連論文リスト
- Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Spatio-temporal Co-attention Fusion Network for Video Splicing
Localization [2.3838507844983248]
3ストリームネットワークは、複数のフレームにわたる操作トレースをキャプチャするためにエンコーダとして使用される。
軽量多層パーセプトロン(MLP)デコーダを採用し、画素レベルのタンパリングローカライゼーションマップを生成する。
SCFNetをトレーニングするために、新しい大規模ビデオスプライシングが作成されている。
論文 参考訳(メタデータ) (2023-09-18T04:46:30Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - INR-V: A Continuous Representation Space for Video-based Generative
Tasks [43.245717657048296]
本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。
INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。
論文 参考訳(メタデータ) (2022-10-29T11:54:58Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。