論文の概要: Uniformly Accelerated Motion Model for Inter Prediction
- arxiv url: http://arxiv.org/abs/2407.11541v2
- Date: Sun, 21 Jul 2024 12:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:02:42.594193
- Title: Uniformly Accelerated Motion Model for Inter Prediction
- Title(参考訳): 相互予測のための一様加速度運動モデル
- Authors: Zhuoyuan Li, Yao Li, Chuanbo Tang, Li Li, Dong Liu, Feng Wu,
- Abstract要約: 自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。
本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
- 参考スコア(独自算出の注目度): 38.34487653360328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inter prediction is a key technology to reduce the temporal redundancy in video coding. In natural videos, there are usually multiple moving objects with variable velocity, resulting in complex motion fields that are difficult to represent compactly. In Versatile Video Coding (VVC), existing inter prediction methods usually assume uniform speed motion between consecutive frames and use the linear models for motion estimation (ME) and motion compensation (MC), which may not well handle the complex motion fields in the real world. To address these issues, we introduce a uniformly accelerated motion model (UAMM) to exploit motion-related elements (velocity, acceleration) of moving objects between the video frames, and further combine them to assist the inter prediction methods to handle the variable motion in the temporal domain. Specifically, first, the theory of UAMM is mentioned. Second, based on that, we propose the UAMM-based parameter derivation and extrapolation schemes in the coding process. Third, we integrate the UAMM into existing inter prediction modes (Merge, MMVD, CIIP) to achieve higher prediction accuracy. The proposed method is implemented into the VVC reference software, VTM version 12.0. Experimental results show that the proposed method achieves up to 0.38% and on average 0.13% BD-rate reduction compared to the VTM anchor, under the Low-delay P configuration, with a slight increase of time complexity on the encoding/decoding side.
- Abstract(参考訳): インター予測は、ビデオ符号化における時間的冗長性を減少させる重要な技術である。
自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は、通常、連続するフレーム間の均一な速度運動を仮定し、実世界の複雑な運動場をうまく扱えないような動き推定(ME)と動き補償(MC)に線形モデルを使用する。
これらの問題に対処するために,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を導入し,その組み合わせにより,時間領域における変動運動を扱うための相互予測手法を支援する。
具体的には、まずUAMMの理論について述べる。
次に,UAMMに基づくパラメータ導出手法と外挿方式を提案する。
第3に,UAMMを既存の予測モード(Merge, MMVD, CIIP)に統合し,高い予測精度を実現する。
提案手法はVVC参照ソフトウェアであるVTMバージョン12.0に実装されている。
実験の結果,VTMアンカーに比べて最大0.38%,平均0.13%のBDレート削減が可能であり,符号化/復号側では時間的複雑さがわずかに増大していることがわかった。
関連論文リスト
- Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
General Implicit Motion Modeling (IMM)は、モーションモデリングVFIの新規かつ効果的なアプローチである。
我々のGIMMは、既存のフローベースのVFIワークとスムーズに統合できます。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。
提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。
提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文 参考訳(メタデータ) (2023-10-19T13:32:38Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation [47.123769305867775]
ビデオフレーム(VFI)は、双方向の歴史的参照から学習可能な動きを歪曲することでフレームを生成することを目的としている。
我々は、フレーム間の複雑な動きをモデル化するために、VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
その結果, 関節運動の退行性は, 最先端の方法と比較して有意に向上した。
論文 参考訳(メタデータ) (2022-06-09T02:47:29Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。