Fugu-MT 論文翻訳(概要): ELF-VC: Efficient Learned Flexible-Rate Video Coding

論文の概要: ELF-VC: Efficient Learned Flexible-Rate Video Coding

arxiv url: http://arxiv.org/abs/2104.14335v1
Date: Thu, 29 Apr 2021 17:50:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-30 13:14:52.093500
Title: ELF-VC: Efficient Learned Flexible-Rate Video Coding
Title（参考訳）: ELF-VC: 効率的なフレキシブルレートビデオ符号化
Authors: Oren Rippel, Alexander G. Anderson, Kedar Tatwawadi, Sanjay Nair, Craig Lytle, Lubomir Bourdev
Abstract要約: 低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
参考スコア（独自算出の注目度）: 61.10102916737163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While learned video codecs have demonstrated great promise, they have yet to achieve sufficient efficiency for practical deployment. In this work, we propose several novel ideas for learned video compression which allow for improved performance for the low-latency mode (I- and P-frames only) along with a considerable increase in computational efficiency. In this setting, for natural videos our approach compares favorably across the entire R-D curve under metrics PSNR, MS-SSIM and VMAF against all mainstream video standards (H.264, H.265, AV1) and all ML codecs. At the same time, our approach runs at least 5x faster and has fewer parameters than all ML codecs which report these figures. Our contributions include a flexible-rate framework allowing a single model to cover a large and dense range of bitrates, at a negligible increase in computation and parameter count; an efficient backbone optimized for ML-based codecs; and a novel in-loop flow prediction scheme which leverages prior information towards more efficient compression. We benchmark our method, which we call ELF-VC (Efficient, Learned and Flexible Video Coding) on popular video test sets UVG and MCL-JCV under metrics PSNR, MS-SSIM and VMAF. For example, on UVG under PSNR, it reduces the BD-rate by 44% against H.264, 26% against H.265, 15% against AV1, and 35% against the current best ML codec. At the same time, on an NVIDIA Titan V GPU our approach encodes/decodes VGA at 49/91 FPS, HD 720 at 19/35 FPS, and HD 1080 at 10/18 FPS.
Abstract（参考訳）: 学習したビデオコーデックは大きな可能性を秘めているが、実際の展開に十分な効率を達成できていない。本研究では,低レイテンシモード(IフレームとPフレームのみ)の性能向上と,計算効率の大幅な向上を実現するための,学習ビデオ圧縮のための新しいアイデアを提案する。この設定では、我々のアプローチは、PSNR、MS-SSIM、VMAFの基準の下でR-D曲線全体に対して、主要なビデオ標準(H.264、H.265、AV1)と全てのMLコーデックに対して好意的に比較する。同時に、我々の手法は少なくとも5倍高速に動作し、これらの数値を報告する全てのMLコーデックよりもパラメータが少ない。コントリビューションには,計算量やパラメータカウントの無視可能な増加,MLベースのコーデックに最適化された効率的なバックボーン,事前情報をより効率的な圧縮に活用する新たなループ内フロー予測スキームなどが含まれている。提案手法は,PSNR,MS-SSIM,VMAFを用いて,一般的なビデオテストセットUVGおよびMCL-JCV上でのELF-VC(Efficient, Learned and Flexible Video Coding)をベンチマークする。例えば、PSNRのUVGでは、BD-rateはH.264に対して44%、H.265に対して26%、AV1に対して15%、現在の最高のMLコーデックに対して35%減少する。 NVIDIA Titan V GPUでは、VGAを49/91 FPSで、HD 720を19/35 FPSで、HD 1080を10/18 FPSでエンコード/デコードしています。

関連論文リスト

Efficient Neural Video Representation with Temporally Coherent Modulation [6.339750087526286]
Inlicit Neural representations (INR) は様々な分野にまたがって成功している。本稿では,映像の動的特徴を捉える新しいフレームワークである時間的コヒーレント変調(NVTM)を用いたニューラルビデオ表現を提案する。本フレームワークは,時間的に時間的に対応可能な画素を一度に実現し,ビデオ品質の適切な符号化速度を実現する。
論文参考訳（メタデータ） (2025-05-01T06:20:42Z)
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。 AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。 VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文参考訳（メタデータ） (2025-03-16T16:14:52Z)
Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-11-20T20:00:38Z)
Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文参考訳（メタデータ） (2024-07-23T12:02:57Z)
Optimal Video Compression using Pixel Shift Tracking [0.0]
本稿では,映像圧縮における主要なアプローチとして,映像のフレームの冗長性除去手法を提案する。 Shift (Rtextsuperscript2S) を用いた冗長除去手法をこの手法と呼ぶ。本研究では,コンピュータビジョンに基づく画素点追跡手法を用いて,冗長な画素を識別し,最適な記憶のために映像を符号化した。
論文参考訳（メタデータ） (2024-06-28T03:36:38Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
Rate-Perception Optimized Preprocessing for Video Coding [15.808458228130261]
本稿では,レート・ディストーション性能を向上させるために,レート・パーセプション最適化前処理(RPP)手法を提案する。 RPP法は非常にシンプルで効率的であり,ビデオエンコーディング,ストリーミング,デコードの設定に何ら変更を加える必要もない。主観的視覚的品質テストでは、87%のユーザが、RPPで圧縮した動画を約12%圧縮するだけで、RPPで動画がより良く、あるいは同等であると考えている。
論文参考訳（メタデータ） (2023-01-25T08:21:52Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
AlphaVC: High-Performance and Efficient Learned Video Compression [4.807439168741098]
コンディションIフレームをGoPの第1フレームとして導入し、再構成された品質を安定させ、ビットレートを節約する。第二に,デコーダの複雑さを増大させることなく相互予測の精度を向上させるために,エンコーダ側の画素間動作予測手法を提案する。第3に,性能向上だけでなく,エントロピー符号化の実行時間を大幅に削減する確率ベースのエントロピースキップ手法を提案する。
論文参考訳（メタデータ） (2022-07-29T13:52:44Z)
Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文参考訳（メタデータ） (2020-08-20T20:01:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。