Fugu-MT 論文翻訳(概要): One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing

論文の概要: One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing

arxiv url: http://arxiv.org/abs/2404.09979v1
Date: Mon, 15 Apr 2024 17:56:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 21:18:06.015005
Title: One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing
Title（参考訳）: 2Dから3Dへのワンクリックアップグレード:立体遠隔会議のためのサンドウィッチRGB-Dビデオ圧縮
Authors: Yueyu Hu, Onur G. Guleryuz, Philip A. Chou, Danhang Tang, Jonathan Taylor, Rus Maxham, Yao Wang,
Abstract要約: 本稿では, ステレオRGB-Dビデオ圧縮をサポートするために, ニューラルプレプロセッサとポストプロセッサのペアでラップすることで, 2次元映像をアップグレードする手法を提案する。我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。提案手法は従来のビデオ符号化方式やMV-HEVCと比べ約30%のビットレートを、新しい視点から同一のレンダリング品質で保存する。
参考スコア（独自算出の注目度）: 13.74209129258984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stereoscopic video conferencing is still challenging due to the need to compress stereo RGB-D video in real-time. Though hardware implementations of standard video codecs such as H.264 / AVC and HEVC are widely available, they are not designed for stereoscopic videos and suffer from reduced quality and performance. Specific multiview or 3D extensions of these codecs are complex and lack efficient implementations. In this paper, we propose a new approach to upgrade a 2D video codec to support stereo RGB-D video compression, by wrapping it with a neural pre- and post-processor pair. The neural networks are end-to-end trained with an image codec proxy, and shown to work with a more sophisticated video codec. We also propose a geometry-aware loss function to improve rendering quality. We train the neural pre- and post-processors on a synthetic 4D people dataset, and evaluate it on both synthetic and real-captured stereo RGB-D videos. Experimental results show that the neural networks generalize well to unseen data and work out-of-box with various video codecs. Our approach saves about 30% bit-rate compared to a conventional video coding scheme and MV-HEVC at the same level of rendering quality from a novel view, without the need of a task-specific hardware upgrade.
Abstract（参考訳）: ステレオRGB-Dビデオをリアルタイムに圧縮する必要があるため、ステレオビデオ会議は依然として難しい。 H.264 / AVC や HEVC などの標準ビデオコーデックのハードウェア実装は広く利用可能であるが、ステレオビデオ向けには設計されておらず、品質と性能の低下に悩まされている。これらのコーデックの特定のマルチビューまたは3D拡張は複雑であり、効率的な実装がない。本稿では,ステレオRGB-Dビデオ圧縮をサポートする2次元ビデオコーデックを,ニューラルプレプロセッサとポストプロセッサのペアでラップすることで,新しいアプローチを提案する。ニューラルネットワークはイメージコーデックプロキシでエンドツーエンドでトレーニングされており、より洗練されたビデオコーデックで動作することが示されている。また、レンダリング品質を向上させるために、幾何認識損失関数を提案する。我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。実験の結果、ニューラルネットワークは目に見えないデータによく一般化し、様々なビデオコーデックでアウト・オブ・ボックスで動作することがわかった。従来のビデオ符号化方式やMV-HEVCと比較して,タスク固有のハードウェアアップグレードを必要とせずに,新たな視点からレンダリング品質を同等に保ちながら,ビットレートを約30%削減する。

関連論文リスト

Neural Video Compression using 2D Gaussian Splatting [0.0]
本稿では,2次元ガウススプラッティングを利用した関心領域に基づくニューラルビデオ圧縮モデルを提案する。本研究では,従来のガウススプラッティング画像の符号化時間を88%高速化するビデオパイプラインを設計した。
論文参考訳（メタデータ） (2025-05-14T12:23:53Z)
Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-12-23T18:58:24Z)
Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。 NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。 NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文参考訳（メタデータ） (2024-09-28T18:21:52Z)
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文参考訳（メタデータ） (2024-09-20T16:54:27Z)
C3: High-performance and low-complexity neural compression from a single image or video [16.770509909942312]
本稿では,強速度歪み(RD)性能を有するニューラル圧縮法であるC3を紹介する。結果として生じるC3の復号複雑性は、同様のRD性能を持つニューラルベースラインよりも桁違いに低い。
論文参考訳（メタデータ） (2023-12-05T13:28:59Z)
Implicit-explicit Integrated Representations for Multi-view Video Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文参考訳（メタデータ） (2023-11-29T04:15:57Z)
HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文参考訳（メタデータ） (2023-04-05T17:55:04Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文参考訳（メタデータ） (2022-10-06T15:35:49Z)
Task Oriented Video Coding: A Survey [0.5076419064097732]
H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮されたビデオが人間によって監視されると仮定して設計されている。コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。コンピュータビジョンタスク指向のビデオコーディングと新しいビデオコーディング標準である Video Coding for Machines の最近の進歩を探求し要約する。
論文参考訳（メタデータ） (2022-08-15T16:21:54Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)
Efficient Video Compression via Content-Adaptive Super-Resolution [11.6624528293976]
ビデオ圧縮はインターネットビデオ配信の重要なコンポーネントである。近年の研究では、ディープラーニング技術が人間のアルゴリズムに匹敵する、あるいは優れていることが示されている。本稿では,最近の深層学習に基づくビデオ圧縮方式を補強する新しい手法を提案する。
論文参考訳（メタデータ） (2021-04-06T07:01:06Z)
Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文参考訳（メタデータ） (2020-09-29T15:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。