論文の概要: TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial
Decoding
- arxiv url: http://arxiv.org/abs/2110.08814v1
- Date: Sun, 17 Oct 2021 12:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 11:29:14.424603
- Title: TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial
Decoding
- Title(参考訳): TEAM-Net:部分復号化によるビデオ行動認識のためのマルチモーダル学習
- Authors: Zhengwei Wang, Qi She, Aljosa Smolic
- Abstract要約: グループ・オブ・ピクチャーズ(GOP)の概念を用いた生映像ストリームの表現による映像圧縮
本稿では,GOPレベルに基づく部分復号化ビデオから,ネットワークのインプットをサンプリングする。
RGBのみを用いたベースラインと比較して,TEAM-Netの優れた性能を示す。
- 参考スコア(独自算出の注目度): 22.12530692711095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of existing video action recognition models ingest raw RGB frames.
However, the raw video stream requires enormous storage and contains
significant temporal redundancy. Video compression (e.g., H.264, MPEG-4)
reduces superfluous information by representing the raw video stream using the
concept of Group of Pictures (GOP). Each GOP is composed of the first I-frame
(aka RGB image) followed by a number of P-frames, represented by motion vectors
and residuals, which can be regarded and used as pre-extracted features. In
this work, we 1) introduce sampling the input for the network from partially
decoded videos based on the GOP-level, and 2) propose a plug-and-play
mulTi-modal lEArning Module (TEAM) for training the network using information
from I-frames and P-frames in an end-to-end manner. We demonstrate the superior
performance of TEAM-Net compared to the baseline using RGB only. TEAM-Net also
achieves the state-of-the-art performance in the area of video action
recognition with partial decoding. Code is provided at
https://github.com/villawang/TEAM-Net.
- Abstract(参考訳): 既存のビデオアクション認識モデルのほとんどは生のRGBフレームを取り込みます。
しかし、生のビデオストリームには膨大なストレージが必要であり、時間的冗長性も大きい。
ビデオ圧縮(H.264、MPEG-4)は、グループ・オブ・ピクチャーズ(GOP)という概念を用いて生のビデオストリームを表現することで、過剰な情報を減らす。
各GOPは、最初のIフレーム(別名RGB画像)と、多数のPフレームで構成され、動きベクトルと残差で表され、事前抽出された特徴と見なすことができる。
この作品では、
1)GOPレベルに基づく部分復号化ビデオからネットワークの入力をサンプリングし、
2) IフレームとPフレームからの情報を用いてネットワークをエンドツーエンドにトレーニングするためのプラグアンドプレイ mulTi-modal lEArning Module (TEAM) を提案する。
RGBのみを用いたベースラインと比較して,TEAM-Netの優れた性能を示す。
TEAM-Netは、部分的復号化を伴うビデオアクション認識領域における最先端のパフォーマンスも達成している。
コードはhttps://github.com/villawang/TEAM-Netで提供されている。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - INR-V: A Continuous Representation Space for Video-based Generative
Tasks [43.245717657048296]
本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。
INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。
論文 参考訳(メタデータ) (2022-10-29T11:54:58Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。