Fugu-MT 論文翻訳(概要): Compressed Vision for Efficient Video Understanding

論文の概要: Compressed Vision for Efficient Video Understanding

arxiv url: http://arxiv.org/abs/2210.02995v1
Date: Thu, 6 Oct 2022 15:35:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 16:52:24.506318
Title: Compressed Vision for Efficient Video Understanding
Title（参考訳）: 効率的な映像理解のための圧縮ビジョン
Authors: Olivia Wiles and Joao Carreira and Iain Barr and Andrew Zisserman and Mateusz Malinowski
Abstract要約: 本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
参考スコア（独自算出の注目度）: 83.97689018324732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Experience and reasoning occur across multiple temporal scales: milliseconds, seconds, hours or days. The vast majority of computer vision research, however, still focuses on individual images or short videos lasting only a few seconds. This is because handling longer videos require more scalable approaches even to process them. In this work, we propose a framework enabling research on hour-long videos with the same hardware that can now process second-long videos. We replace standard video compression, e.g. JPEG, with neural compression and show that we can directly feed compressed videos as inputs to regular video networks. Operating on compressed videos improves efficiency at all pipeline levels -- data transfer, speed and memory -- making it possible to train models faster and on much longer videos. Processing compressed signals has, however, the downside of precluding standard augmentation techniques if done naively. We address that by introducing a small network that can apply transformations to latent codes corresponding to commonly used augmentations in the original video space. We demonstrate that with our compressed vision pipeline, we can train video models more efficiently on popular benchmarks such as Kinetics600 and COIN. We also perform proof-of-concept experiments with new tasks defined over hour-long videos at standard frame rates. Processing such long videos is impossible without using compressed representation.
Abstract（参考訳）: 経験と推論は、ミリ秒、秒、時間、日といった複数の時間スケールで起こる。しかし、コンピュータビジョン研究の大多数は、個々の画像や短いビデオにわずか数秒しかかからない。これは、長いビデオを扱うには、よりスケーラブルなアプローチを必要とするためです。本研究では,現在2時間ビデオ処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。我々は、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示す。圧縮ビデオの操作は、データ転送、スピード、メモリなど、すべてのパイプラインレベルで効率を向上し、モデルがより速く、より長いビデオでトレーニングできるようになる。しかし, 圧縮信号の処理は, 経時的に行うと, 標準的な拡張技術に先行する欠点がある。そこで本稿では,従来のビデオ空間における一般的な拡張に対応する潜在符号に変換を適用可能な,小さなネットワークを導入する。圧縮ビジョンパイプラインを使えば、kinetics600やcoinといった人気のあるベンチマークで、より効率的にビデオモデルをトレーニングできることを実証します。また、標準フレームレートで1時間ビデオ上で定義された新しいタスクを用いて概念実証実験を行う。このような長いビデオの処理は圧縮表現を使わずに不可能である。

関連論文リスト

CRAM: Large-scale Video Continual Learning with Bootstrapped Compression [4.304743423080129]
連続学習(CL)は、ニューラルネットワークがIIDサンプリングではなく、入力の連続ストリームから学ぶことを約束する。メモリバッファから過去のサンプルを補強するリハーサルベースのアプローチを用いたビデオCLに焦点を当てた。そこで本稿では,従来型のネットワークを慎重に圧縮し,新しいネットワークで再圧縮する必要があるビデオ符号をリフレッシュすることで,この忘れを解消する手法を提案する。
論文参考訳（メタデータ） (2025-08-07T03:32:20Z)
GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field [7.977026024810772]
ビデオの暗黙の神経表現は、新しくて有望なビデオ表現として認識されている。本稿では,新しい2次元ガウス映像表現であるGSVRを提案し,Bunny上で800FPS以上,35PSNR以上を達成している。本手法は既存の手法よりもはるかに高速に収束し,他の手法に比べて10倍高速に復号できる。
論文参考訳（メタデータ） (2025-07-08T02:13:12Z)
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design [54.38970077613728]
ビデオ監視、会議要約、教育講義分析、スポーツ放送といった現実の応用において、ロングビデオ理解が重要な機能として現れてきた。我々は,リアルタイムダウンストリームアプリケーションをサポートするために,長時間ビデオ理解を大幅に高速化するシステムアルゴリズムの共同設計であるQuickVideoを提案する。
論文参考訳（メタデータ） (2025-05-22T03:26:50Z)
Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-12-23T18:58:24Z)
PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-12T18:59:40Z)
REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文参考訳（メタデータ） (2024-11-20T18:59:52Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文参考訳（メタデータ） (2023-09-22T13:43:22Z)
MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文参考訳（メタデータ） (2022-11-20T16:40:31Z)
Speeding Up Action Recognition Using Dynamic Accumulation of Residuals in Compressed Domain [2.062593640149623]
ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
論文参考訳（メタデータ） (2022-09-29T13:08:49Z)
Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文参考訳（メタデータ） (2022-01-31T18:56:04Z)
Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文参考訳（メタデータ） (2021-09-17T15:12:17Z)
Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文参考訳（メタデータ） (2020-08-20T20:01:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。