論文の概要: In-Loop Filtering via Trained Look-Up Tables
- arxiv url: http://arxiv.org/abs/2407.10926v1
- Date: Mon, 15 Jul 2024 17:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:00:49.040839
- Title: In-Loop Filtering via Trained Look-Up Tables
- Title(参考訳): トレーニング済みルックアップテーブルによるループ内フィルタリング
- Authors: Zhuoyuan Li, Jiacheng Li, Yao Li, Li Li, Dong Liu, Feng Wu,
- Abstract要約: インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。
ルックアップテーブル(LUT)を用いたループ内フィルタリング手法を提案する。
実験結果から,提案手法の超高速・超高速・高速モードは平均0.13%/0.34%/0.51%,0.10%/0.27%/0.39%のBDレート低下を達成できた。
- 参考スコア(独自算出の注目度): 45.6756570330982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-loop filtering (ILF) is a key technology for removing the artifacts in image/video coding standards. Recently, neural network-based in-loop filtering methods achieve remarkable coding gains beyond the capability of advanced video coding standards, which becomes a powerful coding tool candidate for future video coding standards. However, the utilization of deep neural networks brings heavy time and computational complexity, and high demands of high-performance hardware, which is challenging to apply to the general uses of coding scene. To address this limitation, inspired by explorations in image restoration, we propose an efficient and practical in-loop filtering scheme by adopting the Look-up Table (LUT). We train the DNN of in-loop filtering within a fixed filtering reference range, and cache the output values of the DNN into a LUT via traversing all possible inputs. At testing time in the coding process, the filtered pixel is generated by locating input pixels (to-be-filtered pixel with reference pixels) and interpolating cached filtered pixel values. To further enable the large filtering reference range with the limited storage cost of LUT, we introduce the enhanced indexing mechanism in the filtering process, and clipping/finetuning mechanism in the training. The proposed method is implemented into the Versatile Video Coding (VVC) reference software, VTM-11.0. Experimental results show that the ultrafast, very fast, and fast mode of the proposed method achieves on average 0.13%/0.34%/0.51%, and 0.10%/0.27%/0.39% BD-rate reduction, under the all intra (AI) and random access (RA) configurations. Especially, our method has friendly time and computational complexity, only 101%/102%-104%/108% time increase with 0.13-0.93 kMACs/pixel, and only 164-1148 KB storage cost for a single model. Our solution may shed light on the journey of practical neural network-based coding tool evolution.
- Abstract(参考訳): インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。
近年,ニューラルネットワークをベースとしたループ内フィルタリング手法は,先進的なビデオコーディング標準の能力を超え,将来的なビデオコーディング標準の強力なコーディングツール候補となる。
しかし、ディープニューラルネットワークの利用は、非常に時間と計算の複雑さをもたらし、高性能ハードウェアの要求も高くなるため、コーディングシーンの一般的な用途には適用が難しい。
画像復元における探索から着想を得たこの制限に対処するため,Look-up Table (LUT) を用いたループ内フィルタリング手法を提案する。
我々は、固定されたフィルタリング基準範囲内でループ内フィルタリングのDNNを訓練し、可能な全ての入力をトラバースすることで、DNNの出力値をLUTにキャッシュする。
符号化過程におけるテスト時に、入力画素(基準画素付きフィルタ画素)を位置決めし、キャッシュされたフィルタ画素値を補間することにより、フィルタ画素を生成する。
さらに、LUTのストレージコストが制限された大規模なフィルタリング基準範囲を実現するため、フィルタリングプロセスにおける拡張インデックス化機構と、トレーニングにおけるクリッピング/ファインタニング機構を導入する。
提案手法はVersatile Video Coding (VVC)参照ソフトウェアであるVTM-11.0に実装されている。
実験結果から,提案手法の超高速・超高速・高速モードは, 平均0.13%/0.34%/0.51%, 0.10%/0.27%/0.39%のBDレートで, 全 (AI) およびランダムアクセス (RA) 構成で達成できることがわかった。
特に,本手法は,101%/102%-104%/108%の時間増加,0.13-0.93kMACs/ピクセル,1つのモデルで164-1148KBのストレージコストしか持たない。
私たちのソリューションは、実用的なニューラルネットワークベースのコーディングツール進化の旅に光を当てるかもしれません。
関連論文リスト
- Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines [5.155405463139862]
本稿では,人間指向のビデオ/イメージをマシンビジョンタスクに適応させるために,コンテンツ固有の後処理フィルタの協調最適化の有効性について検討する。
本稿では,競争学習の原則に基づく新しい学習戦略を提案する。
OpenImagesデータセットの実験では、BDレートが-41.3%から-44.6%に改善された。
論文 参考訳(メタデータ) (2024-06-18T07:45:57Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Complexity Reduction of Learned In-Loop Filtering in Video Coding [12.06039429078762]
ビデオ符号化では、インループフィルタが再構成されたビデオフレームに適用され、その知覚的品質が向上し、出力のためにフレームを格納する。
提案手法は,学習したインループフィルタの複雑性低減のために,スポーシティと構造化プルーニングを組み合わせた新しい手法を用いている。
論文 参考訳(メタデータ) (2022-03-16T14:34:41Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - A Global Appearance and Local Coding Distortion based Fusion Framework
for CNN based Filtering in Video Coding [15.778380865885842]
ループ内フィルタリングは、ブロックアーティファクトを削除するために再構成されたフレームを処理するためにビデオ符号化で使用される。
本稿では,2つの側面からフィルタの問題に対処する。これは,破壊されたテクスチャに対するグローバルな外観復元と,固定された符号化パイプラインによる局所的な符号化歪み復元である。
高レベルグローバル特徴ストリーム,高レベルローカル特徴ストリーム,低レベルローカル特徴ストリームを用いて3ストリームグローバル外観と局所符号化歪みに基づく融合ネットワークを開発した。
論文 参考訳(メタデータ) (2021-06-24T03:08:44Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。