論文の概要: C3: High-performance and low-complexity neural compression from a single
image or video
- arxiv url: http://arxiv.org/abs/2312.02753v1
- Date: Tue, 5 Dec 2023 13:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:29:36.009468
- Title: C3: High-performance and low-complexity neural compression from a single
image or video
- Title(参考訳): C3: 単一画像またはビデオからの高性能で低複雑さのニューラル圧縮
- Authors: Hyunjik Kim, Matthias Bauer, Lucas Theis, Jonathan Richard Schwarz,
Emilien Dupont
- Abstract要約: 本稿では,強速度歪み(RD)性能を有するニューラル圧縮法であるC3を紹介する。
結果として生じるC3の復号複雑性は、同様のRD性能を持つニューラルベースラインよりも桁違いに低い。
- 参考スコア(独自算出の注目度): 16.770509909942312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most neural compression models are trained on large datasets of images or
videos in order to generalize to unseen data. Such generalization typically
requires large and expressive architectures with a high decoding complexity.
Here we introduce C3, a neural compression method with strong rate-distortion
(RD) performance that instead overfits a small model to each image or video
separately. The resulting decoding complexity of C3 can be an order of
magnitude lower than neural baselines with similar RD performance. C3 builds on
COOL-CHIC (Ladune et al.) and makes several simple and effective improvements
for images. We further develop new methodology to apply C3 to videos. On the
CLIC2020 image benchmark, we match the RD performance of VTM, the reference
implementation of the H.266 codec, with less than 3k MACs/pixel for decoding.
On the UVG video benchmark, we match the RD performance of the Video
Compression Transformer (Mentzer et al.), a well-established neural video
codec, with less than 5k MACs/pixel for decoding.
- Abstract(参考訳): ほとんどのニューラル圧縮モデルは、見えないデータに一般化するために、画像やビデオの大きなデータセットで訓練されている。
このような一般化は通常、デコーディングの複雑さが高い大規模で表現力豊かなアーキテクチャを必要とする。
ここでは、強いレート歪み(RD)性能を持つニューラル圧縮法であるC3を紹介する。
結果として生じるC3の復号複雑性は、同様のRD性能を持つニューラルベースラインよりも桁違いに低い。
C3はCOOL-CHIC (Ladune et al.)上に構築されており、画像の単純で効果的な改善がいくつかある。
さらに,ビデオにC3を適用する新しい手法を開発した。
CLIC2020イメージベンチマークでは、H.266コーデックのリファレンス実装であるVTMのRD性能と3k MAC/ピクセル以下で一致した。
UVGビデオベンチマークでは、よく確立されたニューラルビデオコーデックである Video Compression Transformer (Mentzer et al.) のRD性能に一致し、デコードには5k MACs/ピクセル以下である。
関連論文リスト
- Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - Standard compliant video coding using low complexity, switchable neural wrappers [8.149130379436759]
標準互換性、高性能、低復号化の複雑さを特徴とする新しいフレームワークを提案する。
私たちは、標準的なビデオをラップして、異なる解像度でビデオをエンコードする、共同最適化されたニューラルプリプロセッサとポストプロセッサのセットを使用します。
我々は、異なるアップサンプリング比を処理できる低複雑性のニューラルポストプロセッサアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-07-10T06:36:45Z) - One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing [13.74209129258984]
本稿では, ステレオRGB-Dビデオ圧縮をサポートするために, ニューラルプレプロセッサとポストプロセッサのペアでラップすることで, 2次元映像をアップグレードする手法を提案する。
我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。
提案手法は従来のビデオ符号化方式やMV-HEVCと比べ約30%のビットレートを、新しい視点から同一のレンダリング品質で保存する。
論文 参考訳(メタデータ) (2024-04-15T17:56:05Z) - Computationally-Efficient Neural Image Compression with Shallow Decoders [43.115831685920114]
本稿では,JPEGに類似した浅い,あるいは線形な復号変換を用いることで,復号化複雑性のギャップを解消する。
我々は、より強力なエンコーダネットワークと反復符号化を採用することにより、符号化と復号の間のしばしば非対称な予算を利用する。
論文 参考訳(メタデータ) (2023-04-13T03:38:56Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - EVC: Towards Real-Time Neural Image Compression with Mask Decay [29.76392801329279]
ニューラル画像圧縮は、RD性能のために最先端の伝統的なコーデック(H.266/VVC)を上回っている。
入力画像が768x512の30FPSで動作可能で,RD性能のVVCよりも優れた高効率単一モデル可変ビットレートコーデック(EVC)を提案する。
論文 参考訳(メタデータ) (2023-02-10T06:02:29Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。