論文の概要: Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression
- arxiv url: http://arxiv.org/abs/2110.01805v2
- Date: Wed, 6 Oct 2021 02:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 10:28:42.487964
- Title: Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression
- Title(参考訳): 映像圧縮のための知覚的最適ブロック運動推定の自己教師付き学習
- Authors: Somdyuti Paul, Andrey Norkin, Alan C. Bovik
- Abstract要約: 多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
- 参考スコア(独自算出の注目度): 50.48504867843605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Block based motion estimation is integral to inter prediction processes
performed in hybrid video codecs. Prevalent block matching based methods that
are used to compute block motion vectors (MVs) rely on computationally
intensive search procedures. They also suffer from the aperture problem, which
can worsen as the block size is reduced. Moreover, the block matching criteria
used in typical codecs do not account for the resulting levels of perceptual
quality of the motion compensated pictures that are created upon decoding.
Towards achieving the elusive goal of perceptually optimized motion estimation,
we propose a search-free block motion estimation framework using a multi-stage
convolutional neural network, which is able to conduct motion estimation on
multiple block sizes simultaneously, using a triplet of frames as input. This
composite block translation network (CBT-Net) is trained in a self-supervised
manner on a large database that we created from publicly available uncompressed
video content. We deploy the multi-scale structural similarity (MS-SSIM) loss
function to optimize the perceptual quality of the motion compensated predicted
frames. Our experimental results highlight the computational efficiency of our
proposed model relative to conventional block matching based motion estimation
algorithms, for comparable prediction errors. Further, when used to perform
inter prediction in AV1, the MV predictions of the perceptually optimized model
result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and
-1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion
(VMAF) quality metrics, respectively as compared to the block matching based
motion estimation system employed in the SVT-AV1 encoder.
- Abstract(参考訳): ハイブリッドビデオコーデックで実行される相互予測プロセスにはブロックベース動作推定が不可欠である。
ブロック運動ベクトル(MV)の計算に使用されるブロックマッチングに基づく一般的な手法は、計算集約的な探索手順に依存する。
また、ブロックサイズが小さくなるにつれて、開口の問題も悪化する。
さらに、典型的なコーデックで使用されるブロックマッチング基準は、復号時に生成される動き補償画像の知覚品質のレベルを考慮しない。
本研究では,多段畳み込みニューラルネットワークを用いて,複数のブロックサイズで同時に3重のフレームを入力として動作推定を行うことのできる探索自由なブロック運動推定フレームワークを提案する。
この複合ブロック翻訳ネットワーク(CBT-Net)は、公開されていないビデオコンテンツから作成した大規模データベース上で、自己教師型で訓練されている。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
実験の結果,従来のブロックマッチングに基づく動き推定アルゴリズムと比較して,予測誤差に匹敵する計算効率が示された。
さらに、AV1で相互予測を行う際には、SVT-AV1エンコーダで使用されるブロックマッチングに基づく動き推定システムと比較して、平均BD-デルタレート(BD-rate)の改善はMS-SSIMとビデオマルチメソッドアセスメントフュージョン(VMAF)の品質指標に対して-1.70%、-1.52%となる。
関連論文リスト
- Uniformly Accelerated Motion Model for Inter Prediction [38.34487653360328]
自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。
本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
論文 参考訳(メタデータ) (2024-07-16T09:46:29Z) - Object Segmentation-Assisted Inter Prediction for Versatile Video Coding [53.91821712591901]
本稿では,参照フレーム内のオブジェクトをいくつかの高度な技術でセグメント化するオブジェクトセグメンテーション支援インター予測手法を提案する。
適切な指示により、オブジェクトセグメンテーションマスクは、参照フレームから現在のフレームに、異なる領域の任意の形のパーティションとして変換される。
提案手法は, 最大1.98%, 1.14%, 0.79%, 平均0.82%, 0.49%, 0.37%のBDレート低下が得られた。
論文 参考訳(メタデータ) (2024-03-18T11:48:20Z) - Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。
提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。
提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文 参考訳(メタデータ) (2023-10-19T13:32:38Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Triple Motion Estimation and Frame Interpolation based on Adaptive
Threshold for Frame Rate Up-Conversion [6.015556590955814]
本稿では,動き補償フレームレートアップ・コンバージョン(MC-FRUC)アルゴリズムを提案する。
提案アルゴリズムは、一側(前方と後方)と両側の運動推定を用いて、まず動きベクトルを推定し、補間フレームを生成する。
片側運動軌道に沿った運動補償フレームは穴をあけるので、この問題を解決するために新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2022-03-05T04:39:42Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。