論文の概要: A Global Appearance and Local Coding Distortion based Fusion Framework
for CNN based Filtering in Video Coding
- arxiv url: http://arxiv.org/abs/2106.12746v1
- Date: Thu, 24 Jun 2021 03:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 14:56:52.970464
- Title: A Global Appearance and Local Coding Distortion based Fusion Framework
for CNN based Filtering in Video Coding
- Title(参考訳): ビデオ符号化におけるcnnに基づくフィルタリングのためのグローバル外観と局所符号化歪みに基づく融合フレームワーク
- Authors: Jian Yue, Yanbo Gao, Shuai Li, Hui Yuan, Fr\'ed\'eric Dufaux
- Abstract要約: ループ内フィルタリングは、ブロックアーティファクトを削除するために再構成されたフレームを処理するためにビデオ符号化で使用される。
本稿では,2つの側面からフィルタの問題に対処する。これは,破壊されたテクスチャに対するグローバルな外観復元と,固定された符号化パイプラインによる局所的な符号化歪み復元である。
高レベルグローバル特徴ストリーム,高レベルローカル特徴ストリーム,低レベルローカル特徴ストリームを用いて3ストリームグローバル外観と局所符号化歪みに基づく融合ネットワークを開発した。
- 参考スコア(独自算出の注目度): 15.778380865885842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-loop filtering is used in video coding to process the reconstructed frame
in order to remove blocking artifacts. With the development of convolutional
neural networks (CNNs), CNNs have been explored for in-loop filtering
considering it can be treated as an image de-noising task. However, in addition
to being a distorted image, the reconstructed frame is also obtained by a fixed
line of block based encoding operations in video coding. It carries coding-unit
based coding distortion of some similar characteristics. Therefore, in this
paper, we address the filtering problem from two aspects, global appearance
restoration for disrupted texture and local coding distortion restoration
caused by fixed pipeline of coding. Accordingly, a three-stream global
appearance and local coding distortion based fusion network is developed with a
high-level global feature stream, a high-level local feature stream and a
low-level local feature stream. Ablation study is conducted to validate the
necessity of different features, demonstrating that the global features and
local features can complement each other in filtering and achieve better
performance when combined. To the best of our knowledge, we are the first one
that clearly characterizes the video filtering process from the above global
appearance and local coding distortion restoration aspects with experimental
verification, providing a clear pathway to developing filter techniques.
Experimental results demonstrate that the proposed method significantly
outperforms the existing single-frame based methods and achieves 13.5%, 11.3%,
11.7% BD-Rate saving on average for AI, LDP and RA configurations,
respectively, compared with the HEVC reference software.
- Abstract(参考訳): ループ内フィルタリングは、ブロックアーティファクトを削除するために再構成されたフレームを処理するためにビデオ符号化で使用される。
畳み込みニューラルネットワーク(CNN)の開発により、CNNは画像デノイズ化タスクとして扱うことができるため、ループ内フィルタリングのために探索されてきた。
しかし、歪んだ画像であることに加えて、映像符号化におけるブロックベースの符号化操作の固定線でも再構成されたフレームが得られる。
同様の特性の符号化単位に基づく符号化歪みを持つ。
そこで本稿では, 符号化の固定パイプラインによる破壊テクスチャのグローバルな外観復元と局所的な符号化歪み復元という2つの側面から, フィルタリング問題に対処する。
これにより、高レベルグローバル特徴ストリーム、高レベルローカル特徴ストリーム、低レベルローカル特徴ストリームを用いて、3ストリームグローバル外観と局所符号化歪みに基づく融合ネットワークを開発する。
異なる特徴の必要性を検証し,グローバルな特徴と局所的な特徴がフィルタリングにおいて相互に補完し,組み合わせることでより良い性能が得られることを示す。
私たちの知る限りでは、上記のグローバルな外観と局所的な符号化歪み復元の側面から、ビデオフィルタリングプロセスを明確に特徴付ける最初の方法であり、フィルタ技術を開発するための明確な道筋を提供する。
実験の結果,提案手法は,HEVC参照ソフトウェアと比較して,AI,LDP,RA設定の平均値で13.5%,11.3%,11.7%のBD-Rate削減を実現していることがわかった。
関連論文リスト
- UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。
本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T06:28:43Z) - In-Loop Filtering via Trained Look-Up Tables [45.6756570330982]
インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。
ルックアップテーブル(LUT)を用いたループ内フィルタリング手法を提案する。
実験結果から,提案手法の超高速・超高速・高速モードは平均0.13%/0.34%/0.51%,0.10%/0.27%/0.39%のBDレート低下を達成できた。
論文 参考訳(メタデータ) (2024-07-15T17:25:42Z) - WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion [16.41082757280262]
低線量CT (LDCT) は, 標準CTと比較して放射線線量が少ないことから, 医用画像診断において選択される技術となっている。
本稿では,従来のスキップ接続ではなく,ネストされた高密度スキップ経路を利用するLDCT画像復号法であるWiTUnetを紹介する。
論文 参考訳(メタデータ) (2024-04-15T07:53:07Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Distortion-Aware Loop Filtering of Intra 360^o Video Coding with
Equirectangular Projection [81.63407194858854]
等角射影(ERP)フォーマットで投影された360$o$ビデオの符号化性能を向上させるため,歪みを考慮したループフィルタリングモデルを提案する。
提案モジュールは、符号化ユニット(CU)パーティションマスクに基づいてコンテンツ特性を分析し、部分的畳み込みによって処理し、指定された領域を活性化する。
論文 参考訳(メタデータ) (2022-02-20T12:00:18Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。