Fugu-MT 論文翻訳(概要): PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

論文の概要: PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

arxiv url: http://arxiv.org/abs/2602.23040v1
Date: Thu, 26 Feb 2026 14:24:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.719296
Title: PackUV: Packed Gaussian UV Maps for 4D Volumetric Video
Title（参考訳）: PackUV:4DボリュームビデオにガウスのUVマップを詰め込む
Authors: Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar,
Abstract要約: 本稿では,すべてのガウス属性を構造化されたマルチスケールUVアトラスの列にマッピングする,新しい4次元ガウス表現であるPackUVを紹介する。これまでで最大のマルチビュービデオデータセットであるPackUV-2Bは、50以上の同期カメラ、実質的な動き、100のシーケンスと2Bフレームにまたがる頻繁な非閉塞を特徴とする。
参考スコア（独自算出の注目度）: 11.013333481800474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Volumetric videos offer immersive 4D experiences, but remain difficult to reconstruct, store, and stream at scale. Existing Gaussian Splatting based methods achieve high-quality reconstruction but break down on long sequences, temporal inconsistency, and fail under large motions and disocclusions. Moreover, their outputs are typically incompatible with conventional video coding pipelines, preventing practical applications. We introduce PackUV, a novel 4D Gaussian representation that maps all Gaussian attributes into a sequence of structured, multi-scale UV atlas, enabling compact, image-native storage. To fit this representation from multi-view videos, we propose PackUV-GS, a temporally consistent fitting method that directly optimizes Gaussian parameters in the UV domain. A flow-guided Gaussian labeling and video keyframing module identifies dynamic Gaussians, stabilizes static regions, and preserves temporal coherence even under large motions and disocclusions. The resulting UV atlas format is the first unified volumetric video representation compatible with standard video codecs (e.g., FFV1) without losing quality, enabling efficient streaming within existing multimedia infrastructure. To evaluate long-duration volumetric capture, we present PackUV-2B, the largest multi-view video dataset to date, featuring more than 50 synchronized cameras, substantial motion, and frequent disocclusions across 100 sequences and 2B (billion) frames. Extensive experiments demonstrate that our method surpasses existing baselines in rendering fidelity while scaling to sequences up to 30 minutes with consistent quality.
Abstract（参考訳）: ボリュームビデオは没入型の4D体験を提供するが、大規模な再構築、保存、ストリーミングは困難である。既存のガウススプティングに基づく手法は、高品質な再構築を実現するが、長いシーケンス、時間的不整合を分解し、大きな動きと非閉塞の下で失敗する。さらに、その出力は通常、従来のビデオ符号化パイプラインと互換性がなく、実用的な応用を妨げている。 PackUVは,すべてのガウス属性を構造化されたマルチスケールUVアトラスの列にマッピングし,コンパクトでイメージネイティブな記憶を可能にする,新しい4Dガウス表現である。マルチビュービデオからこの表現を適合させるために,UV領域のガウスパラメータを直接最適化する時間的に一貫したフィッティング法であるPackUV-GSを提案する。フロー誘導型ガウスラベリングおよびビデオキーフレーミングモジュールは、動的ガウスを識別し、静的領域を安定化し、大きな動きや非閉塞の下でも時間的コヒーレンスを保存する。結果として生じるUVアトラスフォーマットは、標準的なビデオコーデック(例えばFFV1)と互換性のある最初の統一されたボリュームビデオ表現であり、品質を損なうことなく、既存のマルチメディアインフラ内で効率的なストリーミングを可能にする。これまでで最大のマルチビュービデオデータセットであるPackUV-2Bは、50以上の同期カメラ、実質的な動き、100のシーケンスと2B(ビリオン)フレームにまたがる頻繁な非閉塞を特徴とする。拡張実験により,本手法は,連続した品質で最大30分間のシーケンスにスケールしながら,レンダリング忠実度において既存のベースラインを超えることを示した。

関連論文リスト

Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。 LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-01-21T12:58:52Z)
4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming [52.76837132019501]
本稿では,新しい階層型4D圧縮フレームワークである4DGCProを紹介する。 4DGCProは、プログレッシブボリュームビデオストリーミングによるリアルタイムモバイルデコーディングと高品質なレンダリングを容易にする。エンドツーエンドのエントロピー最適化トレーニングスキームを提案する。
論文参考訳（メタデータ） (2025-09-22T08:38:17Z)
Versatile Video Tokenization with Generative 2D Gaussian Splatting [21.242557918885012]
ビデオトランスフォーマー(英: Video Transformer、GVT)は、2Dガウシアン・スプレイティング・ストラテジーをベースとした多用途ビデオトークンである。 GVTはベースライン・オブ・ザ・アーティカルなビデオ品質を実現し、動作認識においてMAGVIT-v2を上回っ、同等の圧縮性能を提供する。
論文参考訳（メタデータ） (2025-08-15T03:16:45Z)
HyPCV-Former: Hyperbolic Spatio-Temporal Transformer for 3D Point Cloud Video Anomaly Detection [1.475698751142657]
HyV-Formerは、複数の異常カテゴリにわたる最先端の異常検出を実現し、TIMoデータセットは7%改善され、DADデータセットは5.6%向上した。
論文参考訳（メタデータ） (2025-08-01T09:50:20Z)
Video Compression for Spatiotemporal Earth System Data [4.347703075408795]
大規模な地球系データセットは、標準的なビデオと類似した特徴を示す。我々は、データセットによるマルチチャネル圧縮のためのライブラリであるxarray videoをビデオとして提示する。実世界の4つのマルチチャネルデータセットに対して,本ライブラリの有効性を示す。
論文参考訳（メタデータ） (2025-06-24T14:20:05Z)
Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文参考訳（メタデータ） (2024-12-12T18:59:34Z)
Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文参考訳（メタデータ） (2024-11-26T09:28:32Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文参考訳（メタデータ） (2024-06-04T17:57:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。