論文の概要: CPGA: Coding Priors-Guided Aggregation Network for Compressed Video Quality Enhancement
- arxiv url: http://arxiv.org/abs/2403.10362v2
- Date: Wed, 20 Nov 2024 02:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:09:59.416966
- Title: CPGA: Coding Priors-Guided Aggregation Network for Compressed Video Quality Enhancement
- Title(参考訳): CPGA:圧縮ビデオ品質向上のための符号化先導アグリゲーションネットワーク
- Authors: Qiang Zhu, Jinhua Hao, Yukang Ding, Yu Liu, Qiao Mo, Ming Sun, Chao Zhou, Shuyuan Zhu,
- Abstract要約: 符号化先行情報から時間的・空間的情報を利用するために,CPGA(Coding Priors-Guided Aggregation)ネットワークを開発した。
圧縮ビデオ品質向上(VQE)の研究を容易にするため,ビデオ符号化優先データセットを構築した。
- 参考スコア(独自算出の注目度): 11.862146973848558
- License:
- Abstract: Recently, numerous approaches have achieved notable success in compressed video quality enhancement (VQE). However, these methods usually ignore the utilization of valuable coding priors inherently embedded in compressed videos, such as motion vectors and residual frames, which carry abundant temporal and spatial information. To remedy this problem, we propose the Coding Priors-Guided Aggregation (CPGA) network to utilize temporal and spatial information from coding priors. The CPGA mainly consists of an inter-frame temporal aggregation (ITA) module and a multi-scale non-local aggregation (MNA) module. Specifically, the ITA module aggregates temporal information from consecutive frames and coding priors, while the MNA module globally captures spatial information guided by residual frames. In addition, to facilitate research in VQE task, we newly construct the Video Coding Priors (VCP) dataset, comprising 300 videos with various coding priors extracted from corresponding bitstreams. It remedies the shortage of previous datasets on the lack of coding information. Experimental results demonstrate the superiority of our method compared to existing state-of-the-art methods. The code and dataset will be released at https://github.com/VQE-CPGA/CPGA.git .
- Abstract(参考訳): 近年、圧縮ビデオ品質向上(VQE)において、多くのアプローチが顕著な成功を収めている。
しかし、これらの手法は通常、時間的・空間的な情報を豊富に含む、モーションベクトルや残留フレームのような圧縮ビデオに本質的に埋め込まれた貴重な符号化先の利用を無視する。
この問題を解決するために,コーディング先行情報から時間的・空間的情報を利用するCPGA(Coding Priors-Guided Aggregation)ネットワークを提案する。
CPGAは主にフレーム間時間アグリゲーション(ITA)モジュールとマルチスケール非局所アグリゲーション(MNA)モジュールで構成される。
具体的には、ITAモジュールは連続フレームと符号化前の時間情報を集約し、MNAモジュールは残留フレームによって導かれる空間情報をグローバルにキャプチャする。
さらに,VQEタスクの研究を容易にするために,ビデオ符号化優先(VCP)データセットを新たに構築した。
コーディング情報の欠如について、以前のデータセットの不足を是正する。
実験により,既存の最先端手法と比較して,本手法の優位性を示した。
コードとデータセットはhttps://github.com/VQE-CPGA/CPGA.gitで公開される。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Transcoded Video Restoration by Temporal Spatial Auxiliary Network [64.63157339057912]
本稿では,映像復元のための時間空間補助ネットワーク(TSAN)を提案する。
実験の結果,提案手法の性能は従来の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-15T08:10:23Z) - TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial
Decoding [22.12530692711095]
グループ・オブ・ピクチャーズ(GOP)の概念を用いた生映像ストリームの表現による映像圧縮
本稿では,GOPレベルに基づく部分復号化ビデオから,ネットワークのインプットをサンプリングする。
RGBのみを用いたベースラインと比較して,TEAM-Netの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-17T12:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。