論文の概要: Compressed Vision for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2210.02995v1
- Date: Thu, 6 Oct 2022 15:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:52:24.506318
- Title: Compressed Vision for Efficient Video Understanding
- Title(参考訳): 効率的な映像理解のための圧縮ビジョン
- Authors: Olivia Wiles and Joao Carreira and Iain Barr and Andrew Zisserman and
Mateusz Malinowski
- Abstract要約: 本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
- 参考スコア(独自算出の注目度): 83.97689018324732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience and reasoning occur across multiple temporal scales: milliseconds,
seconds, hours or days. The vast majority of computer vision research, however,
still focuses on individual images or short videos lasting only a few seconds.
This is because handling longer videos require more scalable approaches even to
process them. In this work, we propose a framework enabling research on
hour-long videos with the same hardware that can now process second-long
videos. We replace standard video compression, e.g. JPEG, with neural
compression and show that we can directly feed compressed videos as inputs to
regular video networks. Operating on compressed videos improves efficiency at
all pipeline levels -- data transfer, speed and memory -- making it possible to
train models faster and on much longer videos. Processing compressed signals
has, however, the downside of precluding standard augmentation techniques if
done naively. We address that by introducing a small network that can apply
transformations to latent codes corresponding to commonly used augmentations in
the original video space. We demonstrate that with our compressed vision
pipeline, we can train video models more efficiently on popular benchmarks such
as Kinetics600 and COIN. We also perform proof-of-concept experiments with new
tasks defined over hour-long videos at standard frame rates. Processing such
long videos is impossible without using compressed representation.
- Abstract(参考訳): 経験と推論は、ミリ秒、秒、時間、日といった複数の時間スケールで起こる。
しかし、コンピュータビジョン研究の大多数は、個々の画像や短いビデオにわずか数秒しかかからない。
これは、長いビデオを扱うには、よりスケーラブルなアプローチを必要とするためです。
本研究では,現在2時間ビデオ処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
我々は、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示す。
圧縮ビデオの操作は、データ転送、スピード、メモリなど、すべてのパイプラインレベルで効率を向上し、モデルがより速く、より長いビデオでトレーニングできるようになる。
しかし, 圧縮信号の処理は, 経時的に行うと, 標準的な拡張技術に先行する欠点がある。
そこで本稿では,従来のビデオ空間における一般的な拡張に対応する潜在符号に変換を適用可能な,小さなネットワークを導入する。
圧縮ビジョンパイプラインを使えば、kinetics600やcoinといった人気のあるベンチマークで、より効率的にビデオモデルをトレーニングできることを実証します。
また、標準フレームレートで1時間ビデオ上で定義された新しいタスクを用いて概念実証実験を行う。
このような長いビデオの処理は圧縮表現を使わずに不可能である。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain [2.062593640149623]
ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
論文 参考訳(メタデータ) (2022-09-29T13:08:49Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。
本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文 参考訳(メタデータ) (2021-09-17T15:12:17Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。