Fugu-MT 論文翻訳(概要): Multi-Density Attention Network for Loop Filtering in Video Compression

論文の概要: Multi-Density Attention Network for Loop Filtering in Video Compression

arxiv url: http://arxiv.org/abs/2104.12865v1
Date: Thu, 8 Apr 2021 05:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-03 19:39:42.658119
Title: Multi-Density Attention Network for Loop Filtering in Video Compression
Title（参考訳）: ビデオ圧縮におけるループフィルタリングのための多次元注意ネットワーク
Authors: Zhao Wang, Changyue Ma, Yan Ye
Abstract要約: ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
参考スコア（独自算出の注目度）: 9.322800480045336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video compression is a basic requirement for consumer and professional video applications alike. Video coding standards such as H.264/AVC and H.265/HEVC are widely deployed in the market to enable efficient use of bandwidth and storage for many video applications. To reduce the coding artifacts and improve the compression efficiency, neural network based loop filtering of the reconstructed video has been developed in the literature. However, loop filtering is a challenging task due to the variation in video content and sampling densities. In this paper, we propose a on-line scaling based multi-density attention network for loop filtering in video compression. The core of our approach lies in several aspects: (a) parallel multi-resolution convolution streams for extracting multi-density features, (b) single attention branch to learn the sample correlations and generate mask maps, (c) a channel-mutual attention procedure to fuse the data from multiple branches, (d) on-line scaling technique to further optimize the output results of network according to the actual signal. The proposed multi-density attention network learns rich features from multiple sampling densities and performs robustly on video content of different resolutions. Moreover, the online scaling process enhances the signal adaptability of the off-line pre-trained model. Experimental results show that 10.18% bit-rate reduction at the same video quality can be achieved over the latest Versatile Video Coding (VVC) standard. The objective performance of the proposed algorithm outperforms the state-of-the-art methods and the subjective quality improvement is obvious in terms of detail preservation and artifact alleviation.
Abstract（参考訳）: ビデオ圧縮は、消費者やプロの動画アプリケーションにとって基本的な要件である。 H.264/AVCやH.265/HEVCといったビデオコーディング標準は、多くのビデオアプリケーションで帯域幅とストレージの効率的な使用を可能にするために広く市場に展開されている。符号化アーチファクトの削減と圧縮効率の向上のために,再構成ビデオのニューラルネットワークに基づくループフィルタリングが文献で開発されている。しかし,ループフィルタリングは,映像コンテンツのばらつきやサンプリング密度などにより難しい課題である。本稿では,ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づくマルチ密度アテンションネットワークを提案する。 a) 多重密度特徴抽出のための並列多重解像度畳み込みストリーム,(b) 単一注意分岐,(b) サンプル相関を学習してマスクマップを生成する,(c) 複数のブランチからデータを融合するチャネル・ミューチュアルな注意手順,(d) 実信号に従ってネットワークの出力結果をさらに最適化する,オンラインスケーリング技術である。提案するマルチ密度アテンションネットワークは,複数のサンプリング密度からリッチな特徴を学習し,解像度の異なるビデオコンテンツに対して頑健に動作する。さらに、オンラインスケーリングプロセスは、オフライン事前学習モデルの信号適応性を高める。実験の結果、同じビデオ品質で10.18%のビットレート削減が、最新のVersatile Video Coding (VVC)標準で達成できることが示されている。提案アルゴリズムの客観的性能は最先端手法を上回り,主観的品質改善は細部保存とアーティファクト緩和の観点から明らかである。

関連論文リスト

Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-21T18:39:31Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文参考訳（メタデータ） (2025-01-21T15:36:08Z)
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文参考訳（メタデータ） (2024-05-10T09:18:17Z)
Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文参考訳（メタデータ） (2023-09-15T05:31:53Z)
Video Compression with Arbitrary Rescaling Network [8.489428003916622]
符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。軽量RARN構造は、FHD(1080p)コンテンツをリアルタイム(91 FPS)で処理し、かなりのレート低下を得ることができる。
論文参考訳（メタデータ） (2023-06-07T07:15:18Z)
Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
Efficient VVC Intra Prediction Based on Deep Feature Fusion and Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文参考訳（メタデータ） (2022-05-07T08:01:32Z)
Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。 HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。 3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文参考訳（メタデータ） (2022-02-07T18:04:10Z)
Multitask Learning for VVC Quality Enhancement and Super-Resolution [11.446576112498596]
デコードされたVVCビデオ品質を高めるための後処理のステップとして学習ベースのソリューションを提案します。提案手法はマルチタスク学習に依存し,複数のレベルに最適化された1つの共有ネットワークを用いて品質向上と超解像化を実現する。
論文参考訳（メタデータ） (2021-04-16T19:05:26Z)
Super-Resolving Compressed Video in Coding Chain [27.994055823226848]
レファレンスベースのDCNNと連携する混合解像度符号化フレームワークを提案する。この新しい符号化チェーンにおいて、基準ベースDCNNは、低解像度(LR)圧縮ビデオからデコーダ側の高解像度(HR)クリーンバージョンへの直接マッピングを学習する。
論文参考訳（メタデータ） (2021-03-26T03:39:54Z)
Efficient Adaptation of Neural Network Filter for Video Compression [10.769305738505071]
本稿では,ニューラルネットワークフィルタのための効率的なファインタニング手法を提案する。微細チューニングは、エンコーダ側で行われ、ニューラルネットワークが符号化されている特定のコンテンツに適応する。提案手法は従来のファインタニング手法よりもはるかに高速である。
論文参考訳（メタデータ） (2020-07-28T14:24:28Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。