論文の概要: Compressed Vision for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2210.02995v1
- Date: Thu, 6 Oct 2022 15:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:52:24.506318
- Title: Compressed Vision for Efficient Video Understanding
- Title(参考訳): 効率的な映像理解のための圧縮ビジョン
- Authors: Olivia Wiles and Joao Carreira and Iain Barr and Andrew Zisserman and
Mateusz Malinowski
- Abstract要約: 本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
- 参考スコア(独自算出の注目度): 83.97689018324732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience and reasoning occur across multiple temporal scales: milliseconds,
seconds, hours or days. The vast majority of computer vision research, however,
still focuses on individual images or short videos lasting only a few seconds.
This is because handling longer videos require more scalable approaches even to
process them. In this work, we propose a framework enabling research on
hour-long videos with the same hardware that can now process second-long
videos. We replace standard video compression, e.g. JPEG, with neural
compression and show that we can directly feed compressed videos as inputs to
regular video networks. Operating on compressed videos improves efficiency at
all pipeline levels -- data transfer, speed and memory -- making it possible to
train models faster and on much longer videos. Processing compressed signals
has, however, the downside of precluding standard augmentation techniques if
done naively. We address that by introducing a small network that can apply
transformations to latent codes corresponding to commonly used augmentations in
the original video space. We demonstrate that with our compressed vision
pipeline, we can train video models more efficiently on popular benchmarks such
as Kinetics600 and COIN. We also perform proof-of-concept experiments with new
tasks defined over hour-long videos at standard frame rates. Processing such
long videos is impossible without using compressed representation.
- Abstract(参考訳): 経験と推論は、ミリ秒、秒、時間、日といった複数の時間スケールで起こる。
しかし、コンピュータビジョン研究の大多数は、個々の画像や短いビデオにわずか数秒しかかからない。
これは、長いビデオを扱うには、よりスケーラブルなアプローチを必要とするためです。
本研究では,現在2時間ビデオ処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
我々は、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示す。
圧縮ビデオの操作は、データ転送、スピード、メモリなど、すべてのパイプラインレベルで効率を向上し、モデルがより速く、より長いビデオでトレーニングできるようになる。
しかし, 圧縮信号の処理は, 経時的に行うと, 標準的な拡張技術に先行する欠点がある。
そこで本稿では,従来のビデオ空間における一般的な拡張に対応する潜在符号に変換を適用可能な,小さなネットワークを導入する。
圧縮ビジョンパイプラインを使えば、kinetics600やcoinといった人気のあるベンチマークで、より効率的にビデオモデルをトレーニングできることを実証します。
また、標準フレームレートで1時間ビデオ上で定義された新しいタスクを用いて概念実証実験を行う。
このような長いビデオの処理は圧縮表現を使わずに不可能である。
関連論文リスト
- Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain [2.062593640149623]
ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
論文 参考訳(メタデータ) (2022-09-29T13:08:49Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。