論文の概要: Region-of-Interest Based Neural Video Compression
- arxiv url: http://arxiv.org/abs/2203.01978v1
- Date: Thu, 3 Mar 2022 19:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 03:46:38.902980
- Title: Region-of-Interest Based Neural Video Compression
- Title(参考訳): 関心領域に基づくニューラルビデオ圧縮
- Authors: Yura Perugachi-Diaz, Guillaume Sauti\`ere, Davide Abati, Yang Yang,
Amirhossein Habibian, Taco S Cohen
- Abstract要約: ROIに基づくニューラルビデオ符号化のための2つのモデルを導入する。
まず,2値のROIマスクで入力される暗黙のモデルを提案し,背景の歪みを非強調にすることで学習する。
我々は、ROIにおけるR-D(Ryse-Distortion)のパフォーマンスにおいて、私たちのメソッドがすべてのベースラインを上回っていることを示します。
- 参考スコア(独自算出の注目度): 19.81699221664852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans do not perceive all parts of a scene with the same resolution, but
rather focus on few regions of interest (ROIs). Traditional Object-Based codecs
take advantage of this biological intuition, and are capable of non-uniform
allocation of bits in favor of salient regions, at the expense of increased
distortion the remaining areas: such a strategy allows a boost in perceptual
quality under low rate constraints. Recently, several neural codecs have been
introduced for video compression, yet they operate uniformly over all spatial
locations, lacking the capability of ROI-based processing. In this paper, we
introduce two models for ROI-based neural video coding. First, we propose an
implicit model that is fed with a binary ROI mask and it is trained by
de-emphasizing the distortion of the background. Secondly, we design an
explicit latent scaling method, that allows control over the quantization
binwidth for different spatial regions of latent variables, conditioned on the
ROI mask. By extensive experiments, we show that our methods outperform all our
baselines in terms of Rate-Distortion (R-D) performance in the ROI. Moreover,
they can generalize to different datasets and to any arbitrary ROI at inference
time. Finally, they do not require expensive pixel-level annotations during
training, as synthetic ROI masks can be used with little to no degradation in
performance. To the best of our knowledge, our proposals are the first
solutions that integrate ROI-based capabilities into neural video compression
models.
- Abstract(参考訳): 人間はシーンのすべての部分を同じ解像度で知覚するのではなく、少数の関心領域(ROI)に焦点を当てる。
従来のオブジェクトベースのコーデックは、この生物学的直観を生かして、残りの領域の歪みの増加を犠牲にして、突出した領域に有利なビットを均一に割り当てることができる。
近年、ビデオ圧縮のためにいくつかのニューラルコーデックが導入されているが、ROIベースの処理能力に欠け、すべての空間的位置で均一に動作している。
本稿では、ROIに基づくニューラルビデオ符号化の2つのモデルを紹介する。
まず,2値のROIマスクで入力される暗黙のモデルを提案し,背景の歪みを非強調にすることで学習する。
次に,潜在変数の異なる空間領域に対する量子化バイナリ幅の制御を可能にする明示的潜在スケーリング手法をroiマスク上で設計する。
大規模な実験により,提案手法はROIにおけるR-D(Ryse-Distortion)のパフォーマンスにおいて,すべてのベースラインを上回ります。
さらに、異なるデータセットや推論時に任意のROIに一般化することができる。
最後に、これらはトレーニング中に高価なピクセルレベルのアノテーションを必要としない。
私たちの知る限りでは、私たちの提案はROIベースの能力をニューラルビデオ圧縮モデルに統合する最初のソリューションです。
関連論文リスト
- RUN: Reversible Unfolding Network for Concealed Object Segmentation [61.13528324971598]
マスクドメインとRGBドメインの両方にわたる可逆戦略。
マスクとRGBドメインをまたいだ可逆的戦略を適用したReversible Unfolding Network (RUN)を提案する。
論文 参考訳(メタデータ) (2025-01-30T22:19:15Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - ROI-based Deep Image Compression with Swin Transformers [14.044999439481511]
バックグラウンドよりも高品質な関心の領域(ROI)には、ビデオ会議システムを含む多くのアプリケーションがあります。
自動エンコーダネットワークの主ビルディングブロックとして,Swinトランスフォーマーを用いたROIベースの画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-12T22:05:44Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。