論文の概要: Resolution-Agnostic Neural Compression for High-Fidelity Portrait Video
Conferencing via Implicit Radiance Fields
- arxiv url: http://arxiv.org/abs/2402.16599v1
- Date: Mon, 26 Feb 2024 14:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:28:14.596843
- Title: Resolution-Agnostic Neural Compression for High-Fidelity Portrait Video
Conferencing via Implicit Radiance Fields
- Title(参考訳): 入射放射場を用いた高精細画像会議のための分解能非依存ニューラル圧縮
- Authors: Yifei Li, Xiaohong Liu, Yicong Peng, Guangtao Zhai, and Jun Zhou
- Abstract要約: 高忠実度と低帯域幅はビデオ会議アプリケーションにおけるビデオ圧縮の2つの主要な目的である。
本稿では,高忠実度映像会議のための新しい低帯域幅ニューラル圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 42.926554334378984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video conferencing has caught much more attention recently. High fidelity and
low bandwidth are two major objectives of video compression for video
conferencing applications. Most pioneering methods rely on classic video
compression codec without high-level feature embedding and thus can not reach
the extremely low bandwidth. Recent works instead employ model-based neural
compression to acquire ultra-low bitrates using sparse representations of each
frame such as facial landmark information, while these approaches can not
maintain high fidelity due to 2D image-based warping. In this paper, we propose
a novel low bandwidth neural compression approach for high-fidelity portrait
video conferencing using implicit radiance fields to achieve both major
objectives. We leverage dynamic neural radiance fields to reconstruct
high-fidelity talking head with expression features, which are represented as
frame substitution for transmission. The overall system employs deep model to
encode expression features at the sender and reconstruct portrait at the
receiver with volume rendering as decoder for ultra-low bandwidth. In
particular, with the characteristic of neural radiance fields based model, our
compression approach is resolution-agnostic, which means that the low bandwidth
achieved by our approach is independent of video resolution, while maintaining
fidelity for higher resolution reconstruction. Experimental results demonstrate
that our novel framework can (1) construct ultra-low bandwidth video
conferencing, (2) maintain high fidelity portrait and (3) have better
performance on high-resolution video compression than previous works.
- Abstract(参考訳): 近年,ビデオ会議が注目されている。
高忠実度と低帯域幅はビデオ会議アプリケーションにおけるビデオ圧縮の2つの主要な目的である。
ほとんどの先駆的手法は、高レベルな特徴埋め込みを伴わない古典的なビデオ圧縮コーデックに依存しているため、帯域幅は極端に低い。
最近の研究では、モデルベースのニューラル圧縮を用いて、顔のランドマーク情報などの各フレームのスパース表現を用いて超低ビットレートを取得するが、これらのアプローチは2次元画像ベースのワープによって高い忠実性を維持することはできない。
本稿では,暗黙的放射場を用いた高忠実度ポートレートビデオ会議のための低帯域ニューラル圧縮手法を提案する。
我々は動的ニューラルラジアンス場を利用して、伝達のフレーム置換として表される表現特徴を持つ高忠実な音声頭部を再構成する。
システム全体はディープモデルを用いて送信側の表現特徴を符号化し、超低帯域幅のデコーダとしてボリュームレンダリングを用いて受信側のポートレートを再構成する。
特に, ニューラルラディアンス場モデルの特徴から, 圧縮手法は分解能に依存しないため, 高分解能再構成のための忠実さを維持しつつ, ビデオ解像度とは無関係である。
実験により,(1)超低帯域幅ビデオ会議の構築,(2)高忠実度像の維持,(3)高精細度映像圧縮の性能向上が実証された。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Perceptual Quality Improvement in Videoconferencing using
Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。
まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。
そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文 参考訳(メタデータ) (2023-11-07T16:38:23Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Gemino: Practical and Robust Neural Compression for Video Conferencing [19.137804113000474]
Geminoは、新しい高周波超解像パイプラインに基づくビデオ会議のための新しいニューラル圧縮システムである。
我々は,GeminoがTitan X GPU上でリアルタイムに動画を処理し,従来のビデオコーデックよりも2.2~5倍低画質で知覚品質を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-21T17:10:46Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。