論文の概要: CPSL: Representing Volumetric Video via Content-Promoted Scene Layers
- arxiv url: http://arxiv.org/abs/2511.14927v1
- Date: Tue, 18 Nov 2025 21:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.539208
- Title: CPSL: Representing Volumetric Video via Content-Promoted Scene Layers
- Title(参考訳): CPSL:コンテンツ駆動シーンレイヤによるボリュームビデオの表現
- Authors: Kaiyuan Hu, Yili Jin, Junhua Liu, Xize Duan, Hong Kang, Xue Liu,
- Abstract要約: ボリュームビデオは、自由視点探索とリアルモーションパララックスをサポートすることにより、没入的でインタラクティブな視覚体験を可能にする。
明示的な点雲から暗黙のニューラルネットワークへの既存のボリューム表現は、キャプチャ、計算、レンダリングにコストがかかる。
本稿では,従来の2Dコンテンツにボリュームビデオの知覚的メリットをもたらす,コンパクトな2.5Dビデオ表現であるContent-Promoted Scene Layers (CPSL)を提案する。
- 参考スコア(独自算出の注目度): 12.246405253035123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Volumetric video enables immersive and interactive visual experiences by supporting free viewpoint exploration and realistic motion parallax. However, existing volumetric representations from explicit point clouds to implicit neural fields, remain costly in capture, computation, and rendering, which limits their scalability for on-demand video and reduces their feasibility for real-time communication. To bridge this gap, we propose Content-Promoted Scene Layers (CPSL), a compact 2.5D video representation that brings the perceptual benefits of volumetric video to conventional 2D content. Guided by per-frame depth and content saliency, CPSL decomposes each frame into a small set of geometry-consistent layers equipped with soft alpha bands and an edge-depth cache that jointly preserve occlusion ordering and boundary continuity. These lightweight, 2D-encodable assets enable parallax-corrected novel-view synthesis via depth-weighted warping and front-to-back alpha compositing, bypassing expensive 3D reconstruction. Temporally, CPSL maintains inter-frame coherence using motion-guided propagation and per-layer encoding, supporting real-time playback with standard video codecs. Across multiple benchmarks, CPSL achieves superior perceptual quality and boundary fidelity compared with layer-based and neural-field baselines while reducing storage and rendering cost by several folds. Our approach offer a practical path from 2D video to scalable 2.5D immersive media.
- Abstract(参考訳): ボリュームビデオは、自由視点探索とリアルモーションパララックスをサポートすることにより、没入的でインタラクティブな視覚体験を可能にする。
しかしながら、明示的なポイントクラウドから暗黙のニューラルネットワークに至るまで、既存のボリューム表現は、オンデマンドビデオのスケーラビリティを制限し、リアルタイム通信の可能性を減らすために、キャプチャ、計算、レンダリングにコストがかかるままである。
このギャップを埋めるために、従来の2Dコンテンツにボリュームビデオの知覚的利点をもたらす、コンパクトな2.5Dビデオ表現であるContent-Promoted Scene Layers (CPSL)を提案する。
CPSLはフレーム毎の深さと内容のサリエンシによってガイドされ、各フレームをソフトアルファバンドとエッジ深度キャッシュを備えた小さな幾何整合層に分解し、オクルージョン順序と境界連続性を共同で保持する。
これらの軽量で2D化可能な資産は、高額な3D再構成を回避して、深度重み付けのワープとフロント・ツー・バックのアルファ合成によるパララックス補正されたノベルビュー合成を可能にする。
CPSLは、モーション誘導伝搬と層間符号化を用いてフレーム間のコヒーレンスを維持し、標準ビデオコーデックによるリアルタイム再生をサポートする。
複数のベンチマークでCPSLは、階層ベースやニューラルフィールドベースラインに比べて知覚品質と境界忠実度に優れ、ストレージとレンダリングのコストを数倍に削減する。
このアプローチは、2Dビデオからスケーラブルな2.5D没入型メディアへの実践的なパスを提供する。
関連論文リスト
- VidSplice: Towards Coherent Video Inpainting via Explicit Spaced Frame Guidance [57.57195766748601]
VidSpliceは、テンポラリな手口でペンキを塗るプロセスをガイドする新しいフレームワークである。
VidSpliceは様々な映像のインパインティングシナリオで競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-10-24T13:44:09Z) - 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming [52.76837132019501]
本稿では,新しい階層型4D圧縮フレームワークである4DGCProを紹介する。
4DGCProは、プログレッシブボリュームビデオストリーミングによるリアルタイムモバイルデコーディングと高品質なレンダリングを容易にする。
エンドツーエンドのエントロピー最適化トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:38:17Z) - D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos [12.24209693552492]
自由視点ビデオ(FVV)は没入型3D体験を可能にするが、動的3D表現の効率的な圧縮は依然として大きな課題である。
本稿では,時間的に相関したガウス点雲列を圧縮する新しいフィードフォワードフレームワークである動的ガウス散乱(D-FCGS)のフィードフォワード圧縮を提案する。
実験の結果,最適化手法の速度歪み特性と一致し,40倍以上の圧縮を2秒以内で達成した。
論文 参考訳(メタデータ) (2025-07-08T10:39:32Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Deep Video Coding with Dual-Path Generative Adversarial Network [39.19042551896408]
本稿では,DGVC(Double-path Generative Adversarial Network-based Video)という,効率的なコーデックを提案する。
我々のDGVCは、PSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減する。
論文 参考訳(メタデータ) (2021-11-29T11:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。