論文の概要: Adaptation and Attention for Neural Video Coding
- arxiv url: http://arxiv.org/abs/2112.08767v1
- Date: Thu, 16 Dec 2021 10:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:51:50.945651
- Title: Adaptation and Attention for Neural Video Coding
- Title(参考訳): ニューラルビデオ符号化の適応と注意
- Authors: Nannan Zou, Honglei Zhang, Francesco Cricri, Ramin G. Youvalari, Hamed
R. Tavakoli, Jani Lainema, Emre Aksu, Miska Hannuksela, Esa Rahtu
- Abstract要約: 本稿では,いくつかの建築ノベルティとトレーニングノベルティを紹介するエンド・ツー・エンドの学習ビデオを提案する。
1つのアーキテクチャ上の特徴として,入力ビデオの解像度に基づいて動き推定プロセスを適用するために,フレーム間モデルをトレーニングすることを提案する。
第2のアーキテクチャノベルティは、分割アテンションベースのニューラルネットワークとDenseNetsの概念を組み合わせた、新しいニューラルブロックである。
- 参考スコア(独自算出の注目度): 23.116987835862314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural image coding represents now the state-of-the-art image compression
approach. However, a lot of work is still to be done in the video domain. In
this work, we propose an end-to-end learned video codec that introduces several
architectural novelties as well as training novelties, revolving around the
concepts of adaptation and attention. Our codec is organized as an intra-frame
codec paired with an inter-frame codec. As one architectural novelty, we
propose to train the inter-frame codec model to adapt the motion estimation
process based on the resolution of the input video. A second architectural
novelty is a new neural block that combines concepts from split-attention based
neural networks and from DenseNets. Finally, we propose to overfit a set of
decoder-side multiplicative parameters at inference time. Through ablation
studies and comparisons to prior art, we show the benefits of our proposed
techniques in terms of coding gains. We compare our codec to VVC/H.266 and
RLVC, which represent the state-of-the-art traditional and end-to-end learned
codecs, respectively, and to the top performing end-to-end learned approach in
2021 CLIC competition, E2E_T_OL. Our codec clearly outperforms E2E_T_OL, and
compare favorably to VVC and RLVC in some settings.
- Abstract(参考訳): ニューラル画像符号化は、現在最先端の画像圧縮アプローチを表している。
しかし、ビデオ分野ではまだ多くの作業が続けられている。
本稿では,いくつかのアーキテクチャ的ノベルティを紹介するとともに,ノベルティを訓練し,適応と注意の概念を中心に展開する,エンド・ツー・エンドの学習ビデオコーデックを提案する。
私たちのコーデックはフレーム内コーデックとフレーム間コーデックを組み合わせることで構成されます。
そこで,本稿では,フレーム間コーデックモデルを学習し,入力映像の解像度に基づいて動作推定プロセスを適応させる手法を提案する。
第2のアーキテクチャノベルティは、分割アテンションベースのニューラルネットワークとDenseNetsの概念を組み合わせた、新しいニューラルブロックである。
最後に、推論時間におけるデコーダ側の乗算パラメータセットのオーバーフィットを提案する。
アブレーション研究と先行技術との比較を通じて,提案手法の利点をコーディングゲインの観点から示す。
我々のコーデックを,最先端の伝統とエンドツーエンドの学習コーデックを表すVVC/H.266とRLVCと,2021年のCLICコンペティションであるE2E_T_OLで最高のエンドツーエンド学習アプローチと比較した。
我々のコーデックは明らかにE2E_T_OLより優れており、一部の設定ではVVCやRLVCと良好に比較できる。
関連論文リスト
- NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - RQAT-INR: Improved Implicit Neural Image Compression [4.449835214520727]
本研究では,INRに基づく画像の複雑さがVAEベースのアプローチよりも低いことを示す。
また,INRに基づく画像モデルとベースラインモデルに対して,大きなマージンでいくつかの改良が提案されている。
論文 参考訳(メタデータ) (2023-03-06T10:59:45Z) - Neural Video Compression with Diverse Contexts [25.96187914295921]
本稿では,時間次元と空間次元の両方において,文脈の多様性を高めることを提案する。
実験の結果,従来のSOTA NVCよりも23.5%の節約が得られた。
論文 参考訳(メタデータ) (2023-02-28T08:35:50Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - AIVC: Artificial Intelligence based Video Codec [2.410573852722981]
AIVCはエンドツーエンドのニューラルビデオシステムである。
ビデオの圧縮は、どんなコード構成でも学べる。
これは、最近のビデオコーダHEVCとパフォーマンスの競争力を提供する。
論文 参考訳(メタデータ) (2022-02-09T10:03:12Z) - Multitask Learning for VVC Quality Enhancement and Super-Resolution [11.446576112498596]
デコードされたVVCビデオ品質を高めるための後処理のステップとして学習ベースのソリューションを提案します。
提案手法はマルチタスク学習に依存し,複数のレベルに最適化された1つの共有ネットワークを用いて品質向上と超解像化を実現する。
論文 参考訳(メタデータ) (2021-04-16T19:05:26Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。