論文の概要: Advanced Learning-Based Inter Prediction for Future Video Coding
- arxiv url: http://arxiv.org/abs/2411.15759v1
- Date: Sun, 24 Nov 2024 08:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:08.568992
- Title: Advanced Learning-Based Inter Prediction for Future Video Coding
- Title(参考訳): 将来のビデオ符号化のための高度な学習ベースインター予測
- Authors: Yanchen Zhao, Wenhong Duan, Chuanmin Jia, Shanshe Wang, Siwei Ma,
- Abstract要約: 本稿では,従来の InterPF を代替する低複雑性学習型相互予測法を提案する。
LLIPは、効率的な推論のためにパラメータをエクスポートできる軽量ニューラルネットワークモデルを活用することにより、フィルタリングプロセスを強化する。
最終的には、InterPFの従来の手技フィルタリングパラメータを学習された最適フィルタリングパラメータに置き換える。
- 参考スコア(独自算出の注目度): 46.4999280984859
- License:
- Abstract: In the fourth generation Audio Video coding Standard (AVS4), the Inter Prediction Filter (INTERPF) reduces discontinuities between prediction and adjacent reconstructed pixels in inter prediction. The paper proposes a low complexity learning-based inter prediction (LLIP) method to replace the traditional INTERPF. LLIP enhances the filtering process by leveraging a lightweight neural network model, where parameters can be exported for efficient inference. Specifically, we extract pixels and coordinates utilized by the traditional INTERPF to form the training dataset. Subsequently, we export the weights and biases of the trained neural network model and implement the inference process without any third-party dependency, enabling seamless integration into video codec without relying on Libtorch, thus achieving faster inference speed. Ultimately, we replace the traditional handcraft filtering parameters in INTERPF with the learned optimal filtering parameters. This practical solution makes the combination of deep learning encoding tools with traditional video encoding schemes more efficient. Experimental results show that our approach achieves 0.01%, 0.31%, and 0.25% coding gain for the Y, U, and V components under the random access (RA) configuration on average.
- Abstract(参考訳): 第4世代オーディオビデオ符号化標準(AVS4)では、インター予測フィルタ(INTERPF)は、インター予測における予測と隣接する再構成画素の不連続を低減させる。
本稿では,従来の InterPF を代替する低複雑性学習型相互予測法を提案する。
LLIPは、効率的な推論のためにパラメータをエクスポートできる軽量ニューラルネットワークモデルを活用することにより、フィルタリングプロセスを強化する。
具体的には、従来のInterPFで使用される画素と座標を抽出し、トレーニングデータセットを作成する。
その後、トレーニングされたニューラルネットワークモデルの重みとバイアスをエクスポートし、サードパーティ依存なしに推論プロセスを実装し、Libtorchに頼ることなくビデオコーデックへのシームレスな統合を可能にし、高速な推論速度を実現する。
最終的には、InterPFの従来の手技フィルタリングパラメータを学習された最適フィルタリングパラメータに置き換える。
この実用的なソリューションにより、ディープラーニングエンコーディングツールと従来のビデオエンコーディングスキームをより効率的に組み合わせることができる。
実験の結果,Y,U,Vの各コンポーネントに対して平均的ランダムアクセス(RA)構成で0.01%,0.31%,0.25%のコードゲインが得られることがわかった。
関連論文リスト
- In-Loop Filtering via Trained Look-Up Tables [45.6756570330982]
インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。
ルックアップテーブル(LUT)を用いたループ内フィルタリング手法を提案する。
実験結果から,提案手法の超高速・超高速・高速モードは平均0.13%/0.34%/0.51%,0.10%/0.27%/0.39%のBDレート低下を達成できた。
論文 参考訳(メタデータ) (2024-07-15T17:25:42Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Complexity Reduction of Learned In-Loop Filtering in Video Coding [12.06039429078762]
ビデオ符号化では、インループフィルタが再構成されたビデオフレームに適用され、その知覚的品質が向上し、出力のためにフレームを格納する。
提案手法は,学習したインループフィルタの複雑性低減のために,スポーシティと構造化プルーニングを組み合わせた新しい手法を用いている。
論文 参考訳(メタデータ) (2022-03-16T14:34:41Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z) - Interpreting CNN for Low Complexity Learned Sub-pixel Motion
Compensation in Video Coding [16.381904711953947]
分数精度補償運動に必要な参照サンプルの複雑さを改善する新しいニューラルネットワークベースのツールが提示される。
この手法がVersatile Video Coding (VVC) テストモデルで実装されると、個々のシーケンスに対する最大4.5%のBDレートの節約が達成される。
学習した複雑性は、完全なニューラルネットワークの適用と比較して大幅に減少する。
論文 参考訳(メタデータ) (2020-06-11T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。