論文の概要: Foveation-based Deep Video Compression without Motion Search
- arxiv url: http://arxiv.org/abs/2203.16490v1
- Date: Wed, 30 Mar 2022 17:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:26:05.702661
- Title: Foveation-based Deep Video Compression without Motion Search
- Title(参考訳): モーション検索を伴わないフォベーションに基づく深部映像圧縮
- Authors: Meixu Chen, Richard Webb, Alan C. Bovik
- Abstract要約: VRで見るビデオのごく一部しか、ユーザーが特定の方向を見つめるときに見ることができないため、ファベーションプロトコルは望ましい。
我々は、ビットの割り当てを指示するフォベーションマスクを生成するFGU(Foveation Generator Unit)を導入することにより、フォベーションを実現する。
我々の新しい圧縮モデルは、Foveated Motionless VIdeo Codec (Foveated MOVI-Codec)と呼ばれ、モーションを計算せずに効率的に動画を圧縮することができる。
- 参考スコア(独自算出の注目度): 43.70396515286677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The requirements of much larger file sizes, different storage formats, and
immersive viewing conditions of VR pose significant challenges to the goals of
acquiring, transmitting, compressing, and displaying high-quality VR content.
At the same time, the great potential of deep learning to advance progress on
the video compression problem has driven a significant research effort. Because
of the high bandwidth requirements of VR, there has also been significant
interest in the use of space-variant, foveated compression protocols. We have
integrated these techniques to create an end-to-end deep learning video
compression framework. A feature of our new compression model is that it
dispenses with the need for expensive search-based motion prediction
computations. This is accomplished by exploiting statistical regularities
inherent in video motion expressed by displaced frame differences. Foveation
protocols are desirable since only a small portion of a video viewed in VR may
be visible as a user gazes in any given direction. Moreover, even within a
current field of view (FOV), the resolution of retinal neurons rapidly
decreases with distance (eccentricity) from the projected point of gaze. In our
learning based approach, we implement foveation by introducing a Foveation
Generator Unit (FGU) that generates foveation masks which direct the allocation
of bits, significantly increasing compression efficiency while making it
possible to retain an impression of little to no additional visual loss given
an appropriate viewing geometry. Our experiment results reveal that our new
compression model, which we call the Foveated MOtionless VIdeo Codec (Foveated
MOVI-Codec), is able to efficiently compress videos without computing motion,
while outperforming foveated version of both H.264 and H.265 on the widely used
UVG dataset and on the HEVC Standard Class B Test Sequences.
- Abstract(参考訳): より大きなファイルサイズ、異なるストレージフォーマット、VRの没入的な視聴条件の要件は、高品質なVRコンテンツの取得、送信、圧縮、表示という目標に重大な課題をもたらす。
同時に、ビデオ圧縮問題の進歩に深層学習が果たす大きな可能性によって、大きな研究が進められている。
VRの帯域幅の要求が高いため、空間可変のフォベレーテッド圧縮プロトコルの使用にも大きな関心が寄せられている。
我々はこれらの技術を統合し、エンドツーエンドのディープラーニングビデオ圧縮フレームワークを作成しました。
我々の新しい圧縮モデルの特徴は、高価な検索ベースの動き予測計算を必要としないことである。
これは、変位フレーム差によって表現される動画の動きに固有の統計正則性を活用することで達成される。
フォベーションプロトコルは、vrで見るビデオのごく一部しか、ユーザーが任意の方向を見つめているときに見ることができないため、望ましい。
さらに、現在の視野内(FOV)においても、網膜ニューロンの分解能は、投射された視線からの距離(偏心性)によって急速に低下する。
学習ベースアプローチでは、ビットの割り当てを指示するフェーベーションマスクを生成するFGU(Foveation Generator Unit)を導入し、圧縮効率を大幅に向上させ、適切な視線幾何学により視覚的損失の少ない印象を保てるようにすることで、フェーベーションを実現する。
実験結果から,我々はFoveated Motionless VIdeo Codec (Foveated MOVI-Codec) と呼ぶ新しい圧縮モデルを用いて,H.264とH.265の両方のFoveatedバージョンを,広く使用されているUVGデータセットおよびHEVC標準クラスBテストシーケンス上で高速に圧縮できることが判明した。
関連論文リスト
- Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - End-to-End Learnable Multi-Scale Feature Compression for VCM [8.037759667748768]
抽出した特徴量に対するエンドツーエンドの最適化と軽量エンコーダの設計を可能にする,新しいマルチスケール特徴量圧縮手法を提案する。
我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出の符号化時間を$times5$から$times27$に短縮する。
論文 参考訳(メタデータ) (2023-06-29T04:05:13Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Evaluating Foveated Video Quality Using Entropic Differencing [1.5877673959068452]
本稿では,帯域通過応答の自然なシーン統計を用いた画像品質評価アルゴリズムを提案する。
提案アルゴリズムは,FEDが人的判断に対して行う予測の相関性を測定して評価する。
提案アルゴリズムの性能は,既存の全参照アルゴリズムと比較して最先端である。
論文 参考訳(メタデータ) (2021-06-12T16:29:13Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Feedback Recurrent Autoencoder for Video Compression [14.072596106425072]
低レイテンシモードで動作する学習ビデオ圧縮のための新しいネットワークアーキテクチャを提案する。
提案手法は,高分解能UVGデータセット上でのMS-SSIM/レート性能を示す。
論文 参考訳(メタデータ) (2020-04-09T02:58:07Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。