論文の概要: Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression
- arxiv url: http://arxiv.org/abs/2401.15864v1
- Date: Mon, 29 Jan 2024 03:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:17:45.766949
- Title: Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression
- Title(参考訳): 学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測
- Authors: Xihua Sheng, Li Li, Dong Liu, Houqiang Li
- Abstract要約: 学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
- 参考スコア(独自算出の注目度): 59.632286735304156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video compression performance is closely related to the accuracy of inter
prediction. It tends to be difficult to obtain accurate inter prediction for
the local video regions with inconsistent motion and occlusion. Traditional
video coding standards propose various technologies to handle motion
inconsistency and occlusion, such as recursive partitions, geometric
partitions, and long-term references. However, existing learned video
compression schemes focus on obtaining an overall minimized prediction error
averaged over all regions while ignoring the motion inconsistency and occlusion
in local regions. In this paper, we propose a spatial decomposition and
temporal fusion based inter prediction for learned video compression. To handle
motion inconsistency, we propose to decompose the video into structure and
detail (SDD) components first. Then we perform SDD-based motion estimation and
SDD-based temporal context mining for the structure and detail components to
generate short-term temporal contexts. To handle occlusion, we propose to
propagate long-term temporal contexts by recurrently accumulating the temporal
information of each historical reference feature and fuse them with short-term
temporal contexts. With the SDD-based motion model and long short-term temporal
contexts fusion, our proposed learned video codec can obtain more accurate
inter prediction. Comprehensive experimental results demonstrate that our codec
outperforms the reference software of H.266/VVC on all common test datasets for
both PSNR and MS-SSIM.
- Abstract(参考訳): ビデオ圧縮性能は相互予測の精度と密接に関連している。
不一致な動きと閉塞を伴う局所映像領域の正確な相互予測を得るのは難しい傾向にある。
従来のビデオ符号化標準は、再帰的分割、幾何学的分割、長期参照など、動きの不整合と閉塞を扱う様々な技術を提案する。
しかし,既存の学習ビデオ圧縮方式では,局所領域における動作不整合や咬合を無視しながら,全領域平均の予測誤差の最小化に重点を置いている。
本稿では,学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
動きの不整合に対処するため,まず動画を構造と細部(SDD)成分に分解する手法を提案する。
次に、SDDに基づく動き推定とSDDに基づく時間的コンテキストマイニングを行い、時間的コンテキストを生成する。
本稿では,各歴史的特徴の時間的情報を繰り返し蓄積し,短時間の時間的文脈と融合させることで,長期的時間的文脈を伝播させることを提案する。
SDDに基づく動きモデルと長時間の時間的文脈融合により,提案したビデオコーデックはより正確な相互予測が得られる。
総合的な実験結果から,PSNRとMS-SSIMの共通テストデータセットにおいて,コーデックがH.266/VVCの参照ソフトウェアより優れていることが示された。
関連論文リスト
- Disentangle and denoise: Tackling context misalignment for video moment retrieval [16.939535169282262]
Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。
本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
論文 参考訳(メタデータ) (2024-08-14T15:00:27Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Video Diffusion Models with Local-Global Context Guidance [17.040535240422088]
高品質なビデオを生成するためのマルチパーセプション条件を抽出するローカル・グローバル・コンテキスト誘導ビデオ拡散モデル(LGC-VD)を提案する。
提案手法は, 映像予測, 非条件推論, 映像生成において, 良好な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:32:27Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。