論文の概要: PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.12096v1
- Date: Mon, 16 Dec 2024 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:29.467343
- Title: PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting
- Title(参考訳): PanSplat:フィードフォワードガウス法による4Kパノラマ合成
- Authors: Cheng Zhang, Haofei Xu, Qianyi Wu, Camilo Cruz Gambardella, Dinh Phung, Jianfei Cai,
- Abstract要約: 最大4K解像度(2048$times$4096)を効率的にサポートする汎用フィードフォワードアプローチであるPanSplatを提案する。
提案手法は,フィボナッチ格子を配置した球状3次元ガウスピラミッドを特徴とし,情報冗長性を低減しつつ画質を向上させる。
実験により、PanSplatは、合成データセットと実世界のデータセットの両方で、優れた効率と画質を実現することが示された。
- 参考スコア(独自算出の注目度): 38.47270795377126
- License:
- Abstract: With the advent of portable 360{\deg} cameras, panorama has gained significant attention in applications like virtual reality (VR), virtual tours, robotics, and autonomous driving. As a result, wide-baseline panorama view synthesis has emerged as a vital task, where high resolution, fast inference, and memory efficiency are essential. Nevertheless, existing methods are typically constrained to lower resolutions (512 $\times$ 1024) due to demanding memory and computational requirements. In this paper, we present PanSplat, a generalizable, feed-forward approach that efficiently supports resolution up to 4K (2048 $\times$ 4096). Our approach features a tailored spherical 3D Gaussian pyramid with a Fibonacci lattice arrangement, enhancing image quality while reducing information redundancy. To accommodate the demands of high resolution, we propose a pipeline that integrates a hierarchical spherical cost volume and Gaussian heads with local operations, enabling two-step deferred backpropagation for memory-efficient training on a single A100 GPU. Experiments demonstrate that PanSplat achieves state-of-the-art results with superior efficiency and image quality across both synthetic and real-world datasets. Code will be available at \url{https://github.com/chengzhag/PanSplat}.
- Abstract(参考訳): 360{\deg}カメラの登場により、パノラマはバーチャルリアリティ(VR)、バーチャルツアー、ロボティクス、自動運転などのアプリケーションで大きな注目を集めている。
その結果、高分解能、高速推論、メモリ効率が不可欠であるワイドベースラインパノラマビュー合成が重要課題として浮上した。
それでも、既存のメソッドは通常、メモリと計算要求が要求されるため、低い解像度(512$\times$1024)に制約される。
本稿では、最大4K (2048 $\times$ 4096) の解像度を効率的にサポートする、一般化可能なフィードフォワードアプローチであるPanSplatを提案する。
提案手法は,フィボナッチ格子を配置した球状3次元ガウスピラミッドを特徴とし,情報冗長性を低減しつつ画質を向上させる。
高解像度の要求に応えるため,階層的な球面体積とガウスヘッドを局所演算に統合したパイプラインを提案し,A100 GPUのメモリ効率向上のための2ステップ遅延バックプロパゲーションを実現する。
実験により、PanSplatは、合成データセットと実世界のデータセットの両方で、優れた効率と画質で最先端の結果を達成することが示された。
コードは \url{https://github.com/chengzhag/PanSplat} で入手できる。
関連論文リスト
- HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian
Splatting [48.59338619051709]
HiFi4Gは、高密度映像からの高忠実度人間パフォーマンスレンダリングのための、明示的でコンパクトなガウスベースのアプローチである。
圧縮速度は25回程度で、1フレームあたり2MB未満である。
論文 参考訳(メタデータ) (2023-12-06T12:36:53Z) - LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS [55.85673901231235]
光ガウシアン(LightGaussian)は、3次元ガウシアンをよりコンパクトなフォーマットに変換する方法である。
ネットワーク・プルーニングにインスパイアされたLightGaussianは、ガウシアンをシーン再構築において最小限のグローバルな重要性で特定した。
LightGaussian は 3D-GS フレームワークで FPS を 144 から 237 に上げながら,平均 15 倍の圧縮率を達成する。
論文 参考訳(メタデータ) (2023-11-28T21:39:20Z) - Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis [0.552480439325792]
スパース画像集合からの新規なビュー合成のために,3次元ガウススプラット表現を最適化した高忠実度シーン再構成を導入した。
本稿では,感性を考慮したベクトルクラスタリングと量子化学習を併用した3次元ガウススプラット表現を用いて,方向色とガウスパラメータを圧縮する手法を提案する。
論文 参考訳(メタデータ) (2023-11-17T14:40:43Z) - VR-NeRF: High-Fidelity Virtualized Walkable Spaces [55.51127858816994]
本稿では,高忠実度キャプチャ,モデル再構成,リアルタイムレンダリングのためのエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T02:03:14Z) - 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering [103.32717396287751]
本研究では,動的シーンの全体像として4D-GS(Gaussian Splatting)を提案する。
HexPlaneにインスパイアされたニューラルボクセル符号化アルゴリズムは、4Dニューラルボクセルの機能を効率的に構築するために提案されている。
我々の4D-GS法は、高解像度の82 FPSで、3090 GPUで800$times$800の解像度でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:21:41Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。
本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。
このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文 参考訳(メタデータ) (2022-10-13T12:45:51Z) - Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation [0.0]
多くのアプリケーションは、安価なハードウェアや組み込みハードウェアの大規模な入力解像度よりも高速な推論を必要とする。
マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。
本稿では,Cityscapes,Vistas,COCO,BSB-Aerialデータセットについてパノラマ実験を行った。
論文 参考訳(メタデータ) (2022-03-15T13:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。