論文の概要: Learning to Compress Videos without Computing Motion
- arxiv url: http://arxiv.org/abs/2009.14110v3
- Date: Sun, 27 Mar 2022 03:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:54:50.592745
- Title: Learning to Compress Videos without Computing Motion
- Title(参考訳): 動きを計算せずに動画を圧縮する学習
- Authors: Meixu Chen, Todd Goodall, Anjul Patney, and Alan C. Bovik
- Abstract要約: 動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
- 参考スコア(独自算出の注目度): 39.46212197928986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of higher resolution contents and displays, its
significant volume poses significant challenges to the goals of acquiring,
transmitting, compressing, and displaying high-quality video content. In this
paper, we propose a new deep learning video compression architecture that does
not require motion estimation, which is the most expensive element of modern
hybrid video compression codecs like H.264 and HEVC. Our framework exploits the
regularities inherent to video motion, which we capture by using displaced
frame differences as video representations to train the neural network. In
addition, we propose a new space-time reconstruction network based on both an
LSTM model and a UNet model, which we call LSTM-UNet. The new video compression
framework has three components: a Displacement Calculation Unit (DCU), a
Displacement Compression Network (DCN), and a Frame Reconstruction Network
(FRN). The DCU removes the need for motion estimation found in hybrid codecs
and is less expensive. In the DCN, an RNN-based network is utilized to compress
displaced frame differences as well as retain temporal information between
frames. The LSTM-UNet is used in the FRN to learn space-time differential
representations of videos. Our experimental results show that our compression
model, which we call the MOtionless VIdeo Codec (MOVI-Codec), learns how to
efficiently compress videos without computing motion. Our experiments show that
MOVI-Codec outperforms the Low-Delay P veryfast setting of the video coding
standard H.264 and exceeds the performance of the modern global standard HEVC
codec, using the same setting, as measured by MS-SSIM, especially on higher
resolution videos. In addition, our network outperforms the latest H.266 (VVC)
codec at higher bitrates, when assessed using MS-SSIM, on high-resolution
videos.
- Abstract(参考訳): 解像度の高いコンテンツやディスプレイの開発により、その大きなボリュームは高品質なビデオコンテンツの取得、送信、圧縮、表示という目標に重大な課題をもたらす。
本稿では,H.264やHEVCのような現代ハイブリッドビデオ圧縮コーデックの最も高価な要素である動き推定を必要としない,新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
ニューラルネットワークをトレーニングするために,フレームのずれをビデオ表現として用いることで,映像動作に固有の規則性を活用する。
さらに、LSTMモデルとUNetモデルの両方に基づく新しい時空間再構成ネットワークを提案し、LSTM-UNetと呼ぶ。
新しいビデオ圧縮フレームワークには、変位計算ユニット(DCU)、変位圧縮ネットワーク(DCN)、フレーム再構成ネットワーク(FRN)の3つのコンポーネントがある。
DCUはハイブリッドコーデックで見られる動き推定の必要性を排除し、安価である。
DCNでは、RNNベースのネットワークを使用して、フレーム間の時間的情報を保持するとともに、変位したフレーム差を圧縮する。
LSTM-UNetはFRNでビデオの時空間差分表現を学習するために使用される。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルでは,動画の動作を計算せずに効率よく圧縮する方法が得られた。
実験の結果,MOVI-Codec はビデオ符号化標準 H.264 の低遅延P を非常に高速に設定し,MS-SSIM で測定したのと同じ設定を用いて,現代のグローバル標準 HEVC コーデックの性能を上回る性能を示した。
さらに,MS-SSIMを用いて高解像度ビデオで評価すると,最新のH.266コーデックよりも高いビットレートで性能が向上する。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - NU-Class Net: A Novel Approach for Video Quality Enhancement [1.7763979745248648]
本稿では,圧縮コーデックによる圧縮アーチファクトの軽減を目的とした,革新的な深層学習モデルであるNU-Class Netを紹介する。
NU-Class Netを利用することで、ビデオキャプチャノード内のビデオエンコーダは出力品質を低下させ、低ビットレートのビデオを生成することができる。
実験により,低ビットレートでストリーミングされたビデオの知覚品質を高めるためのモデルの有効性が確認された。
論文 参考訳(メタデータ) (2024-01-02T11:46:42Z) - Video Compression with Arbitrary Rescaling Network [8.489428003916622]
符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。
軽量RARN構造は、FHD(1080p)コンテンツをリアルタイム(91 FPS)で処理し、かなりのレート低下を得ることができる。
論文 参考訳(メタデータ) (2023-06-07T07:15:18Z) - Sandwiched Video Compression: Efficiently Extending the Reach of
Standard Codecs with Neural Wrappers [11.968545394054816]
本稿では,標準的なビデオにニューラルネットワークをラップするビデオ圧縮システムを提案する。
ネットワークは、速度歪み損失関数を最適化するために共同で訓練される。
HEVCと同等品質で30%の改善が見られた。
論文 参考訳(メタデータ) (2023-03-20T22:03:44Z) - A Codec Information Assisted Framework for Efficient Compressed Video
Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。
圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文 参考訳(メタデータ) (2022-10-15T08:48:29Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - Variable Rate Video Compression using a Hybrid Recurrent Convolutional
Learning Framework [1.9290392443571382]
本稿では,予測自動符号化の概念に基づくハイブリッドビデオ圧縮フレームワークであるPredEncoderを提案する。
可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。
論文 参考訳(メタデータ) (2020-04-08T20:49:25Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。