論文の概要: OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities
- arxiv url: http://arxiv.org/abs/2412.16604v1
- Date: Sat, 21 Dec 2024 12:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:42:48.013265
- Title: OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities
- Title(参考訳): OmniSplat: 編集機能を備えた全方位画像のためのフィードフォワード3Dガウススプラッティング
- Authors: Suyoung Lee, Jaeyoung Chung, Kihoon Kim, Jaeyoo Huh, Gunhee Lee, Minsoo Lee, Kyoung Mu Lee,
- Abstract要約: OmniSplatは、全方位画像から高速なフィードフォワード3DGS生成のための先駆的な研究である。
我々は、視線画像に基づいて訓練された既存のフィードフォワードネットワークよりも高い再構成精度を示す。
- 参考スコア(独自算出の注目度): 44.255563018074575
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Feed-forward 3D Gaussian Splatting (3DGS) models have gained significant popularity due to their ability to generate scenes immediately without needing per-scene optimization. Although omnidirectional images are getting more popular since they reduce the computation for image stitching to composite a holistic scene, existing feed-forward models are only designed for perspective images. The unique optical properties of omnidirectional images make it difficult for feature encoders to correctly understand the context of the image and make the Gaussian non-uniform in space, which hinders the image quality synthesized from novel views. We propose OmniSplat, a pioneering work for fast feed-forward 3DGS generation from a few omnidirectional images. We introduce Yin-Yang grid and decompose images based on it to reduce the domain gap between omnidirectional and perspective images. The Yin-Yang grid can use the existing CNN structure as it is, but its quasi-uniform characteristic allows the decomposed image to be similar to a perspective image, so it can exploit the strong prior knowledge of the learned feed-forward network. OmniSplat demonstrates higher reconstruction accuracy than existing feed-forward networks trained on perspective images. Furthermore, we enhance the segmentation consistency between omnidirectional images by leveraging attention from the encoder of OmniSplat, providing fast and clean 3DGS editing results.
- Abstract(参考訳): フィードフォワード3Dガウススプラッティング(3DGS)モデルは、シーンごとの最適化を必要とせず、即座にシーンを生成する能力によって大きな人気を集めている。
全方位画像は、画像縫合の計算を全体像に合成するので、より人気が高まりつつあるが、既存のフィードフォワードモデルは視点画像のみのために設計されている。
全方位画像のユニークな光学特性は、特徴エンコーダが画像のコンテキストを正確に理解し、空間におけるガウス的非一様化を難しくし、新しいビューから合成された画像品質を妨げる。
OmniSplatは、全方位画像から高速なフィードフォワード3DGS生成のための先駆的な研究である。
我々は,Yin-Yangグリッドを導入し,それに基づく画像分解を行い,全方位画像と視点画像の領域ギャップを低減する。
yin-Yangグリッドは既存のCNN構造をそのまま使用することができるが、その準均一特性により分解された画像は視点像と類似し、学習されたフィードフォワードネットワークの強い事前知識を利用することができる。
OmniSplatは、視点画像に基づいてトレーニングされた既存のフィードフォワードネットワークよりも高い再構成精度を示す。
さらに,OmniSplatのエンコーダからの注意を生かして全方位画像間のセグメンテーションの整合性を高め,高速でクリーンな3DGS編集結果を提供する。
関連論文リスト
- VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames [8.746291192336056]
本稿では,3次元ガウス復元とカメラポーズ推定のための新しいフレームワークであるVicaSplatを提案する。
我々の手法のコアは、トランスフォーマーベースの新しいネットワークアーキテクチャにある。
論文 参考訳(メタデータ) (2025-03-13T11:56:05Z) - Splatter-360: Generalizable 360$^{\circ}$ Gaussian Splatting for Wide-baseline Panoramic Images [52.48351378615057]
textitSplatter-360は、ワイドベースラインパノラマ画像を扱うための、エンドツーエンドの汎用3DGSフレームワークである。
パノラマ画像に固有の歪みを緩和する3D対応複投影エンコーダを提案する。
これにより、堅牢な3D対応機能表現とリアルタイムレンダリングが可能になる。
論文 参考訳(メタデータ) (2024-12-09T06:58:31Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs [29.669534899109028]
Splatt3Rはポーズレスフィードフォワード方式で,立体対からの3次元再構成と新しいビュー合成を行う。
Splatt3Rは補正されていない自然画像から、カメラパラメータや深度情報を必要とせずに3Dガウススプラッターを予測できる。
Splatt3Rは512 x 512の解像度で4FPSでシーンを再構築でき、その結果のスプラッターをリアルタイムでレンダリングできる。
論文 参考訳(メタデータ) (2024-08-25T18:27:20Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - OmniGS: Fast Radiance Field Reconstruction using Omnidirectional Gaussian Splatting [27.543561055868697]
現在の3次元ガウス散乱システムは、歪みのない視点画像を用いた放射場再構成しかサポートしていない。
高速な放射野再構成のための全方位画像を利用するため,新しい全方位撮影システムであるOmniGSを提案する。
論文 参考訳(メタデータ) (2024-04-04T05:10:26Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。