論文の概要: Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding
- arxiv url: http://arxiv.org/abs/2106.08936v1
- Date: Wed, 16 Jun 2021 16:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:32:16.858229
- Title: Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding
- Title(参考訳): ビデオ符号化における低複雑さ干渉予測のための補間フィルタのCNN学習の改善
- Authors: Luka Murn, Saverio Blasi, Alan F. Smeaton and Marta Mrak
- Abstract要約: 本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
- 参考スコア(独自算出の注目度): 5.46121027847413
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The versatility of recent machine learning approaches makes them ideal for
improvement of next generation video compression solutions. Unfortunately,
these approaches typically bring significant increases in computational
complexity and are difficult to interpret into explainable models, affecting
their potential for implementation within practical video coding applications.
This paper introduces a novel explainable neural network-based inter-prediction
scheme, to improve the interpolation of reference samples needed for fractional
precision motion compensation. The approach requires a single neural network to
be trained from which a full quarter-pixel interpolation filter set is derived,
as the network is easily interpretable due to its linear structure. A novel
training framework enables each network branch to resemble a specific
fractional shift. This practical solution makes it very efficient to use
alongside conventional video coding schemes. When implemented in the context of
the state-of-the-art Versatile Video Coding (VVC) test model, 0.77%, 1.27% and
2.25% BD-rate savings can be achieved on average for lower resolution sequences
under the random access, low-delay B and low-delay P configurations,
respectively, while the complexity of the learned interpolation schemes is
significantly reduced compared to the interpolation with full CNNs.
- Abstract(参考訳): 最近の機械学習アプローチの汎用性は、次世代のビデオ圧縮ソリューションの改善に理想的である。
残念ながら、これらのアプローチは一般的に計算複雑性を大幅に増加させ、説明可能なモデルへの解釈が困難であり、実用的なビデオコーディングアプリケーションにおける実装の可能性に影響を与える。
本稿では、分数精度運動補償に必要な参照サンプルの補間を改善するために、ニューラルネットワークを用いた新しい予測手法を提案する。
このアプローチでは、線形構造のためネットワークが容易に解釈できるため、全4分の1ピクセル補間フィルタセットを導出する単一のニューラルネットワークを訓練する必要がある。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
この実用的な解決策は、従来のビデオ符号化方式と並行して使用するのが非常に効率的である。
最先端のVersatile Video Coding (VVC) テストモデルで実装された場合、ランダムアクセス、低遅延B、低遅延P構成の下で、平均0.77%、1.27%、および2.25%のBDレートの節約が達成され、学習された補間スキームの複雑さは完全なCNNの補間に比べて大幅に低減される。
関連論文リスト
- Advanced Learning-Based Inter Prediction for Future Video Coding [46.4999280984859]
本稿では,従来の InterPF を代替する低複雑性学習型相互予測法を提案する。
LLIPは、効率的な推論のためにパラメータをエクスポートできる軽量ニューラルネットワークモデルを活用することにより、フィルタリングプロセスを強化する。
最終的には、InterPFの従来の手技フィルタリングパラメータを学習された最適フィルタリングパラメータに置き換える。
論文 参考訳(メタデータ) (2024-11-24T08:47:00Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Neural Network based Inter bi-prediction Blending [8.815673539598816]
本稿では,ビデオ符号化におけるバイディディクションを改善するための学習的手法を提案する。
この文脈では、ブレンディング操作をさらに改善する単純なニューラルネットワークを導入する。
テストが行われ、ネットワークサイズが10k未満のネットワークサイズに対して、ランダムアクセス構成でBDレートが-1.4%改善された。
論文 参考訳(メタデータ) (2022-01-26T13:57:48Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z) - Interpreting CNN for Low Complexity Learned Sub-pixel Motion
Compensation in Video Coding [16.381904711953947]
分数精度補償運動に必要な参照サンプルの複雑さを改善する新しいニューラルネットワークベースのツールが提示される。
この手法がVersatile Video Coding (VVC) テストモデルで実装されると、個々のシーケンスに対する最大4.5%のBDレートの節約が達成される。
学習した複雑性は、完全なニューラルネットワークの適用と比較して大幅に減少する。
論文 参考訳(メタデータ) (2020-06-11T13:10:20Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。