論文の概要: Exploring Long- and Short-Range Temporal Information for Learned Video
Compression
- arxiv url: http://arxiv.org/abs/2208.03754v3
- Date: Tue, 2 Jan 2024 12:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 20:25:11.505589
- Title: Exploring Long- and Short-Range Temporal Information for Learned Video
Compression
- Title(参考訳): 学習ビデオ圧縮のための長短時間情報の検討
- Authors: Huairui Wang and Zhenzhong Chen
- Abstract要約: 圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
- 参考スコア(独自算出の注目度): 54.91301930491466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned video compression methods have gained a variety of interest in the
video coding community since they have matched or even exceeded the
rate-distortion (RD) performance of traditional video codecs. However, many
current learning-based methods are dedicated to utilizing short-range temporal
information, thus limiting their performance. In this paper, we focus on
exploiting the unique characteristics of video content and further exploring
temporal information to enhance compression performance. Specifically, for
long-range temporal information exploitation, we propose temporal prior that
can update continuously within the group of pictures (GOP) during inference. In
that case temporal prior contains valuable temporal information of all decoded
images within the current GOP. As for short-range temporal information, we
propose a progressive guided motion compensation to achieve robust and
effective compensation. In detail, we design a hierarchical structure to
achieve multi-scale compensation. More importantly, we use optical flow
guidance to generate pixel offsets between feature maps at each scale, and the
compensation results at each scale will be used to guide the following scale's
compensation. Sufficient experimental results demonstrate that our method can
obtain better RD performance than state-of-the-art video compression
approaches. The code is publicly available on:
https://github.com/Huairui/LSTVC.
- Abstract(参考訳): 学習されたビデオ圧縮手法は、従来のビデオコーデックのレートゆらぎ(rd)性能と一致した、あるいは超えているため、ビデオコーディングコミュニティで様々な関心を集めている。
しかし,現在の学習手法の多くは短距離時間情報の利用に特化しており,性能が制限されている。
本稿では,映像コンテンツの独特な特徴の活用と,圧縮性能向上のための時間情報の検討に着目する。
具体的には,画像群(GOP)内で画像群を連続的に更新できる時間的事前情報の利用を提案する。
この場合、temporal priorは現在のgop内の全てのデコードされた画像の貴重な時間情報を含んでいる。
短距離時間情報については,頑健かつ効果的な補償を実現するための進行誘導運動補償を提案する。
本稿では,マルチスケール補償を実現する階層構造を設計する。
さらに,各スケールで特徴マップ間の画素オフセットを生成するために光フローガイダンスを用い,各スケールでの補償結果を用いて,以下のスケールの補償を導出する。
提案手法は,最先端のビデオ圧縮手法よりも優れたRD性能が得られることを示す。
コードは、https://github.com/Huairui/LSTVCで公開されている。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - NIRVANA: Neural Implicit Representations of Videos with Adaptive
Networks and Autoregressive Patch-wise Modeling [37.51397331485574]
Inlicit Neural Representations (INR)は、最近、高品質なビデオ圧縮のための強力なツールであることが示されている。
これらの手法は、より長いビデオや高解像度にスケールしない固定されたアーキテクチャを持つ。
我々は,動画をフレーム群として扱うNIRVANAを提案し,パッチワイズ予測を行うグループ毎に個別のネットワークを適合させる。
論文 参考訳(メタデータ) (2022-12-30T08:17:02Z) - Microdosing: Knowledge Distillation for GAN based Compression [18.140328230701233]
そこで本研究では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。
これにより、モデルサイズを20倍に削減し、デコード時間の50%削減を実現できます。
論文 参考訳(メタデータ) (2022-01-07T14:27:16Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。