論文の概要: Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2207.05049v1
- Date: Mon, 11 Jul 2022 17:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 15:39:06.976453
- Title: Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis
- Title(参考訳): Fast-Vid2Vid:ビデオ間合成のための空間時間圧縮
- Authors: Long Zhuo, Guangcong Wang, Shikai Li, Wayne Wu, Ziwei Liu
- Abstract要約: 映像合成 (Vid2Vid) は, セマンティックマップのシーケンスから写真リアルな映像を生成することで, 顕著な成果を上げている。
Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを節約する。
- 参考スコア(独自算出の注目度): 40.249030338644225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-Video synthesis (Vid2Vid) has achieved remarkable results in
generating a photo-realistic video from a sequence of semantic maps. However,
this pipeline suffers from high computational cost and long inference latency,
which largely depends on two essential factors: 1) network architecture
parameters, 2) sequential data stream. Recently, the parameters of image-based
generative models have been significantly compressed via more efficient network
architectures. Nevertheless, existing methods mainly focus on slimming network
architectures and ignore the size of the sequential data stream. Moreover, due
to the lack of temporal coherence, image-based compression is not sufficient
for the compression of the video task. In this paper, we present a
spatial-temporal compression framework, \textbf{Fast-Vid2Vid}, which focuses on
data aspects of generative models. It makes the first attempt at time dimension
to reduce computational resources and accelerate inference. Specifically, we
compress the input data stream spatially and reduce the temporal redundancy.
After the proposed spatial-temporal knowledge distillation, our model can
synthesize key-frames using the low-resolution data stream. Finally,
Fast-Vid2Vid interpolates intermediate frames by motion compensation with
slight latency. On standard benchmarks, Fast-Vid2Vid achieves around real-time
performance as 20 FPS and saves around 8x computational cost on a single V100
GPU.
- Abstract(参考訳): ビデオ間合成(Vid2Vid)は,セマンティックマップのシーケンスから写真リアルな映像を生成することで,顕著な成果を上げている。
しかし、このパイプラインは高い計算コストと長い推論遅延に悩まされており、主に2つの重要な要因に依存している。
1)ネットワークアーキテクチャパラメータ、
2)シーケンシャルなデータストリーム。
近年,画像ベース生成モデルのパラメータは,より効率的なネットワークアーキテクチャによって大幅に圧縮されている。
それでも、既存の手法は主にネットワークアーキテクチャのスリム化とシーケンシャルなデータストリームのサイズを無視することに焦点を当てている。
さらに、時間的コヒーレンスが欠如しているため、映像ベースの圧縮は、映像タスクの圧縮に十分ではない。
本稿では,生成モデルのデータ面に着目した空間時間圧縮フレームワーク \textbf{fast-vid2vid} を提案する。
これは時間次元で計算資源を減らし、推論を加速する最初の試みである。
具体的には,入力データストリームを空間的に圧縮し,時間的冗長性を低減する。
提案した時空間知識蒸留後,低分解能データストリームを用いてキーフレームを合成できる。
最後に、Fast-Vid2Vidは、わずかなレイテンシで動き補正によって中間フレームを補間する。
標準ベンチマークでは、Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを削減している。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - EfficientSCI: Densely Connected Network with Space-time Factorization
for Large-scale Video Snapshot Compressive Imaging [6.8372546605486555]
圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドのディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示す。
提案手法は,従来のSOTAアルゴリズムよりも性能が優れ,リアルタイム性能が向上した。
論文 参考訳(メタデータ) (2023-05-17T07:28:46Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - A Codec Information Assisted Framework for Efficient Compressed Video
Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。
圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文 参考訳(メタデータ) (2022-10-15T08:48:29Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。