論文の概要: Neural Network based Inter bi-prediction Blending
- arxiv url: http://arxiv.org/abs/2202.03149v1
- Date: Wed, 26 Jan 2022 13:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 01:25:32.479234
- Title: Neural Network based Inter bi-prediction Blending
- Title(参考訳): ニューラルネットワークによるbi-predictionブレンド
- Authors: Franck Galpin, Philippe Bordes, Thierry Dumas, Pavel Nikitin, Fabrice
Le Leannec
- Abstract要約: 本稿では,ビデオ符号化におけるバイディディクションを改善するための学習的手法を提案する。
この文脈では、ブレンディング操作をさらに改善する単純なニューラルネットワークを導入する。
テストが行われ、ネットワークサイズが10k未満のネットワークサイズに対して、ランダムアクセス構成でBDレートが-1.4%改善された。
- 参考スコア(独自算出の注目度): 8.815673539598816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a learning-based method to improve bi-prediction in video
coding. In conventional video coding solutions, the motion compensation of
blocks from already decoded reference pictures stands out as the principal tool
used to predict the current frame. Especially, the bi-prediction, in which a
block is obtained by averaging two different motion-compensated prediction
blocks, significantly improves the final temporal prediction accuracy. In this
context, we introduce a simple neural network that further improves the
blending operation. A complexity balance, both in terms of network size and
encoder mode selection, is carried out. Extensive tests on top of the recently
standardized VVC codec are performed and show a BD-rate improvement of -1.4% in
random access configuration for a network size of fewer than 10k parameters. We
also propose a simple CPU-based implementation and direct network quantization
to assess the complexity/gains tradeoff in a conventional codec framework.
- Abstract(参考訳): 本稿では,映像符号化におけるバイプレディクションを改善するための学習ベース手法を提案する。
従来のビデオ符号化ソリューションでは、既に復号化されている参照画像からのブロックの運動補償が、現在のフレームを予測するための主要なツールとして際立っている。
特に、2つの異なる動き補償予測ブロックを平均してブロックを得るバイ予測は、最終時間予測精度を大幅に向上させる。
この文脈では、ブレンディング操作をさらに改善する単純なニューラルネットワークを導入する。
ネットワークサイズとエンコーダモード選択の両面で複雑性バランスを行う。
最近標準化されたvvcコーデック上で広範なテストを行い、10k未満のネットワークサイズでランダムアクセス設定のbdレートが-1.4%向上することを示した。
また、従来のコーデックフレームワークにおける複雑性/利得トレードオフを評価するために、CPUベースの実装と直接ネットワーク量子化を提案する。
関連論文リスト
- Motion Free B-frame Coding for Neural Video Compression [0.0]
本稿では,上記の2つの典型的なアーキテクチャの欠点に対処する新しいアプローチを提案する。
モーションフリーアプローチの利点は2つある: ネットワークの符号化効率を改善し、計算複雑性を著しく低減する。
実験の結果,提案フレームワークはHEVCクラスBデータセット上でのSOTAディープ・ニューラルビデオ圧縮ネットワークよりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T07:03:11Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Anti-aliasing Predictive Coding Network for Future Video Frame
Prediction [1.4610038284393165]
ここでは、正確で鋭い将来のフレームを生成することを目的とした、予測的コーディングベースのモデルを紹介します。
我々は、ニューラルネットワークが明確で自然なフレームを生成することを保証するために、いくつかのアーティファクトを提案し、改善する。
論文 参考訳(メタデータ) (2023-01-13T07:38:50Z) - A Scalable Graph Neural Network Decoder for Short Block Codes [49.25571364253986]
エッジ重み付きグラフニューラルネットワーク(EW-GNN)に基づく短絡符号の復号化アルゴリズムを提案する。
EW-GNNデコーダは、繰り返しメッセージパッシング構造を持つタナーグラフで動作する。
EW-GNNデコーダは,復号誤り率の観点から,BP法および深層学習に基づくBP法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-13T17:13:12Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。