論文の概要: One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing
- arxiv url: http://arxiv.org/abs/2404.09979v1
- Date: Mon, 15 Apr 2024 17:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:18:06.015005
- Title: One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing
- Title(参考訳): 2Dから3Dへのワンクリックアップグレード:立体遠隔会議のためのサンドウィッチRGB-Dビデオ圧縮
- Authors: Yueyu Hu, Onur G. Guleryuz, Philip A. Chou, Danhang Tang, Jonathan Taylor, Rus Maxham, Yao Wang,
- Abstract要約: 本稿では, ステレオRGB-Dビデオ圧縮をサポートするために, ニューラルプレプロセッサとポストプロセッサのペアでラップすることで, 2次元映像をアップグレードする手法を提案する。
我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。
提案手法は従来のビデオ符号化方式やMV-HEVCと比べ約30%のビットレートを、新しい視点から同一のレンダリング品質で保存する。
- 参考スコア(独自算出の注目度): 13.74209129258984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereoscopic video conferencing is still challenging due to the need to compress stereo RGB-D video in real-time. Though hardware implementations of standard video codecs such as H.264 / AVC and HEVC are widely available, they are not designed for stereoscopic videos and suffer from reduced quality and performance. Specific multiview or 3D extensions of these codecs are complex and lack efficient implementations. In this paper, we propose a new approach to upgrade a 2D video codec to support stereo RGB-D video compression, by wrapping it with a neural pre- and post-processor pair. The neural networks are end-to-end trained with an image codec proxy, and shown to work with a more sophisticated video codec. We also propose a geometry-aware loss function to improve rendering quality. We train the neural pre- and post-processors on a synthetic 4D people dataset, and evaluate it on both synthetic and real-captured stereo RGB-D videos. Experimental results show that the neural networks generalize well to unseen data and work out-of-box with various video codecs. Our approach saves about 30% bit-rate compared to a conventional video coding scheme and MV-HEVC at the same level of rendering quality from a novel view, without the need of a task-specific hardware upgrade.
- Abstract(参考訳): ステレオRGB-Dビデオをリアルタイムに圧縮する必要があるため、ステレオビデオ会議は依然として難しい。
H.264 / AVC や HEVC などの標準ビデオコーデックのハードウェア実装は広く利用可能であるが、ステレオビデオ向けには設計されておらず、品質と性能の低下に悩まされている。
これらのコーデックの特定のマルチビューまたは3D拡張は複雑であり、効率的な実装がない。
本稿では,ステレオRGB-Dビデオ圧縮をサポートする2次元ビデオコーデックを,ニューラルプレプロセッサとポストプロセッサのペアでラップすることで,新しいアプローチを提案する。
ニューラルネットワークはイメージコーデックプロキシでエンドツーエンドでトレーニングされており、より洗練されたビデオコーデックで動作することが示されている。
また、レンダリング品質を向上させるために、幾何認識損失関数を提案する。
我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。
実験の結果、ニューラルネットワークは目に見えないデータによく一般化し、様々なビデオコーデックでアウト・オブ・ボックスで動作することがわかった。
従来のビデオ符号化方式やMV-HEVCと比較して,タスク固有のハードウェアアップグレードを必要とせずに,新たな視点からレンダリング品質を同等に保ちながら,ビットレートを約30%削減する。
関連論文リスト
- C3: High-performance and low-complexity neural compression from a single
image or video [16.770509909942312]
本稿では,強速度歪み(RD)性能を有するニューラル圧縮法であるC3を紹介する。
結果として生じるC3の復号複雑性は、同様のRD性能を持つニューラルベースラインよりも桁違いに低い。
論文 参考訳(メタデータ) (2023-12-05T13:28:59Z) - Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Task Oriented Video Coding: A Survey [0.5076419064097732]
H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮されたビデオが人間によって監視されると仮定して設計されている。
コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。
コンピュータビジョンタスク指向のビデオコーディングと新しいビデオコーディング標準である Video Coding for Machines の最近の進歩を探求し要約する。
論文 参考訳(メタデータ) (2022-08-15T16:21:54Z) - Perceptual Coding for Compressed Video Understanding: A New Framework
and Benchmark [57.23523738351178]
本稿では,ビデオ理解のための最初のプログラミングフレームワークを提案する。このフレームワークでは,別の学習可能な知覚ビットストリームを導入し,同時にビデオビットストリームを転送する。
このフレームワークは,(1)産業用ビデオの高能率コンテンツ符号化,(2)ニューラルネットワーク(NN)のフレキシブルパーセプチュアル符号化,という2つの世界の長所を享受することができる。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Efficient Video Compression via Content-Adaptive Super-Resolution [11.6624528293976]
ビデオ圧縮はインターネットビデオ配信の重要なコンポーネントである。
近年の研究では、ディープラーニング技術が人間のアルゴリズムに匹敵する、あるいは優れていることが示されている。
本稿では,最近の深層学習に基づくビデオ圧縮方式を補強する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-06T07:01:06Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。