論文の概要: ELF-VC: Efficient Learned Flexible-Rate Video Coding
- arxiv url: http://arxiv.org/abs/2104.14335v1
- Date: Thu, 29 Apr 2021 17:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:14:52.093500
- Title: ELF-VC: Efficient Learned Flexible-Rate Video Coding
- Title(参考訳): ELF-VC: 効率的なフレキシブルレートビデオ符号化
- Authors: Oren Rippel, Alexander G. Anderson, Kedar Tatwawadi, Sanjay Nair,
Craig Lytle, Lubomir Bourdev
- Abstract要約: 低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
- 参考スコア(独自算出の注目度): 61.10102916737163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While learned video codecs have demonstrated great promise, they have yet to
achieve sufficient efficiency for practical deployment. In this work, we
propose several novel ideas for learned video compression which allow for
improved performance for the low-latency mode (I- and P-frames only) along with
a considerable increase in computational efficiency. In this setting, for
natural videos our approach compares favorably across the entire R-D curve
under metrics PSNR, MS-SSIM and VMAF against all mainstream video standards
(H.264, H.265, AV1) and all ML codecs. At the same time, our approach runs at
least 5x faster and has fewer parameters than all ML codecs which report these
figures.
Our contributions include a flexible-rate framework allowing a single model
to cover a large and dense range of bitrates, at a negligible increase in
computation and parameter count; an efficient backbone optimized for ML-based
codecs; and a novel in-loop flow prediction scheme which leverages prior
information towards more efficient compression.
We benchmark our method, which we call ELF-VC (Efficient, Learned and
Flexible Video Coding) on popular video test sets UVG and MCL-JCV under metrics
PSNR, MS-SSIM and VMAF. For example, on UVG under PSNR, it reduces the BD-rate
by 44% against H.264, 26% against H.265, 15% against AV1, and 35% against the
current best ML codec. At the same time, on an NVIDIA Titan V GPU our approach
encodes/decodes VGA at 49/91 FPS, HD 720 at 19/35 FPS, and HD 1080 at 10/18
FPS.
- Abstract(参考訳): 学習したビデオコーデックは大きな可能性を秘めているが、実際の展開に十分な効率を達成できていない。
本研究では,低レイテンシモード(IフレームとPフレームのみ)の性能向上と,計算効率の大幅な向上を実現するための,学習ビデオ圧縮のための新しいアイデアを提案する。
この設定では、我々のアプローチは、PSNR、MS-SSIM、VMAFの基準の下でR-D曲線全体に対して、主要なビデオ標準(H.264、H.265、AV1)と全てのMLコーデックに対して好意的に比較する。
同時に、我々の手法は少なくとも5倍高速に動作し、これらの数値を報告する全てのMLコーデックよりもパラメータが少ない。
コントリビューションには,計算量やパラメータカウントの無視可能な増加,MLベースのコーデックに最適化された効率的なバックボーン,事前情報をより効率的な圧縮に活用する新たなループ内フロー予測スキームなどが含まれている。
提案手法は,PSNR,MS-SSIM,VMAFを用いて,一般的なビデオテストセットUVGおよびMCL-JCV上でのELF-VC(Efficient, Learned and Flexible Video Coding)をベンチマークする。
例えば、PSNRのUVGでは、BD-rateはH.264に対して44%、H.265に対して26%、AV1に対して15%、現在の最高のMLコーデックに対して35%減少する。
NVIDIA Titan V GPUでは、VGAを49/91 FPSで、HD 720を19/35 FPSで、HD 1080を10/18 FPSでエンコード/デコードしています。
関連論文リスト
- Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。
しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。
より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-11-20T20:00:38Z) - Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。
提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T12:02:57Z) - Optimal Video Compression using Pixel Shift Tracking [0.0]
本稿では,映像圧縮における主要なアプローチとして,映像のフレームの冗長性除去手法を提案する。
Shift (Rtextsuperscript2S) を用いた冗長除去手法をこの手法と呼ぶ。
本研究では,コンピュータビジョンに基づく画素点追跡手法を用いて,冗長な画素を識別し,最適な記憶のために映像を符号化した。
論文 参考訳(メタデータ) (2024-06-28T03:36:38Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Rate-Perception Optimized Preprocessing for Video Coding [15.808458228130261]
本稿では,レート・ディストーション性能を向上させるために,レート・パーセプション最適化前処理(RPP)手法を提案する。
RPP法は非常にシンプルで効率的であり,ビデオエンコーディング,ストリーミング,デコードの設定に何ら変更を加える必要もない。
主観的視覚的品質テストでは、87%のユーザが、RPPで圧縮した動画を約12%圧縮するだけで、RPPで動画がより良く、あるいは同等であると考えている。
論文 参考訳(メタデータ) (2023-01-25T08:21:52Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - AlphaVC: High-Performance and Efficient Learned Video Compression [4.807439168741098]
コンディションIフレームをGoPの第1フレームとして導入し、再構成された品質を安定させ、ビットレートを節約する。
第二に,デコーダの複雑さを増大させることなく相互予測の精度を向上させるために,エンコーダ側の画素間動作予測手法を提案する。
第3に,性能向上だけでなく,エントロピー符号化の実行時間を大幅に削減する確率ベースのエントロピースキップ手法を提案する。
論文 参考訳(メタデータ) (2022-07-29T13:52:44Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。