論文の概要: Motion-Plane-Adaptive Inter Prediction in 360-Degree Video Coding
- arxiv url: http://arxiv.org/abs/2202.03323v1
- Date: Mon, 7 Feb 2022 16:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:25:14.762208
- Title: Motion-Plane-Adaptive Inter Prediction in 360-Degree Video Coding
- Title(参考訳): 360度映像符号化におけるモーションプレーン適応干渉予測
- Authors: Andy Regensky, Christian Herglotz, Andr\'e Kaup
- Abstract要約: 我々は,360度ビデオのための移動平面適応型相互予測手法(MPA)を提案する。
MPAは、理論上は任意にマッピングされた2D画像表現を扱うのではなく、3次元空間の異なる運動平面上で、相互予測を行うことができる。
我々は、異なる運動平面と運動モデルの間で動き情報を変換できる運動平面適応型運動ベクトル予測技術(MPA-MVP)を導出する。
- 参考スコア(独自算出の注目度): 7.09875977818162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inter prediction is one of the key technologies enabling the high compression
efficiency of modern video coding standards. 360-degree video needs to be
mapped to the 2D image plane prior to coding in order to allow compression
using existing video coding standards. The distortions that inevitably occur
when mapping spherical data onto the 2D image plane, however, impair the
performance of classical inter prediction techniques. In this paper, we propose
a motion-plane-adaptive inter prediction technique (MPA) for 360-degree video
that takes the spherical characteristics of 360-degree video into account.
Based on the known projection format of the video, MPA allows to perform inter
prediction on different motion planes in 3D space instead of having to work on
the - in theory arbitrarily mapped - 2D image representation directly. We
furthermore derive a motion-plane-adaptive motion vector prediction technique
(MPA-MVP) that allows to translate motion information between different motion
planes and motion models. Our proposed integration of MPA together with MPA-MVP
into the state-of-the-art H.266/VVC video coding standard shows significant
Bjontegaard Delta rate savings of 1.72% with a peak of 3.97% based on PSNR and
1.56% with a peak of 3.40% based on WS-PSNR compared to the VTM-14.2 baseline
on average.
- Abstract(参考訳): インター予測は、現代のビデオコーディング標準の高圧縮効率を実現する重要な技術の1つである。
360度ビデオは、既存のビデオコーディング標準による圧縮を可能にするために、コーディングの前に2D画像プレーンにマッピングする必要がある。
しかし、球面データを2次元画像平面にマッピングする際に必然的に発生する歪みは、古典的相互予測技術の性能を損なう。
本稿では,360度映像の球面特性を考慮した360度映像に対する動き面適応型相互予測手法(mpa)を提案する。
ビデオの既知の射影形式に基づいて、mpaは3d空間内の異なる動き平面上で、任意のマッピングされた2d画像表現を直接行うのではなく、相互に予測することができる。
さらに,動き面適応運動ベクトル予測手法(mpa-mvp)を導出し,異なる動き面と動きモデル間の動き情報を翻訳する。
我々の提案したMPA-MVPと最先端のH.266/VVCビデオ符号化標準の統合により,PSNRベースで3.97%,WS-PSNRベースで1.56%,VTM-14.2ベースラインで3.40%,Bjontegaardデルタレートで1.72%の大幅な削減が可能となった。
関連論文リスト
- U-Motion: Learned Point Cloud Video Compression with U-Structured Motion Estimation [9.528405963599997]
ポイントクラウドビデオ(PCV)は、多くの新興アプリケーションを持つダイナミックシーンの汎用的な3D表現である。
本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:17:01Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。
提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。
提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文 参考訳(メタデータ) (2023-10-19T13:32:38Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。