Fugu-MT 論文翻訳(概要): PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting

論文の概要: PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting

arxiv url: http://arxiv.org/abs/2410.22128v1
Date: Tue, 29 Oct 2024 15:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.899422
Title: PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting
Title（参考訳）: PF3plat:Pse-free Feed-Forward 3D Gaussian Splatting
Authors: Sunghwan Hong, Jaewoo Jung, Heeseong Shin, Jisang Han, Jiaolong Yang, Chong Luo, Seungryong Kim,
Abstract要約: PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
参考スコア（独自算出の注目度）: 54.7468067660037
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the problem of novel view synthesis from unposed images in a single feed-forward. Our framework capitalizes on fast speed, scalability, and high-quality 3D reconstruction and view synthesis capabilities of 3DGS, where we further extend it to offer a practical solution that relaxes common assumptions such as dense image views, accurate camera poses, and substantial image overlaps. We achieve this through identifying and addressing unique challenges arising from the use of pixel-aligned 3DGS: misaligned 3D Gaussians across different views induce noisy or sparse gradients that destabilize training and hinder convergence, especially when above assumptions are not met. To mitigate this, we employ pre-trained monocular depth estimation and visual correspondence models to achieve coarse alignments of 3D Gaussians. We then introduce lightweight, learnable modules to refine depth and pose estimates from the coarse alignments, improving the quality of 3D reconstruction and novel view synthesis. Furthermore, the refined estimates are leveraged to estimate geometry confidence scores, which assess the reliability of 3D Gaussian centers and condition the prediction of Gaussian parameters accordingly. Extensive evaluations on large-scale real-world datasets demonstrate that PF3plat sets a new state-of-the-art across all benchmarks, supported by comprehensive ablation studies validating our design choices.
Abstract（参考訳）: フィードフォワードの未提示画像からの新規なビュー合成の問題点を考察する。我々のフレームワークは3DGSの高速・スケーラビリティ・高品質な3D再構成・ビュー合成機能を利用しており、さらに高密度画像ビュー、正確なカメラポーズ、実質的な画像オーバーラップといった一般的な仮定を緩和する実用的なソリューションを提供する。異なる視点にまたがる3Dガウスアンの不整合は、トレーニングの不安定化や収束の妨げとなるノイズやスパース勾配を生じさせ、特に上記の仮定が満たされていない場合、これを達成します。これを緩和するために,3次元ガウスの粗いアライメントを実現するために,事前学習した単眼深度推定と視覚対応モデルを用いる。そこで我々は, より軽量で学習可能なモジュールを導入し, 粗いアライメントから推定値を推定し, 3次元再構成と新しいビュー合成の質を向上させる。さらに、3次元ガウス中心の信頼性を評価し、それに応じてガウスパラメータの予測を条件とした幾何信頼度スコアを推定する。大規模な実世界のデータセットに対する広範囲な評価は、PF3platがすべてのベンチマークに新しい最先端を設定していることを示し、設計選択を検証する包括的なアブレーション研究が支持している。

関連論文リスト

Pose-free 3D Gaussian splatting via shape-ray estimation [19.489216159648404]
ポーズフリーでフィードフォワードのガウススプレイティングフレームワークであるSHAREを紹介する。関節形状とカメラ線推定によりあいまいさを克服する。提案手法はポーズフリーな一般化可能なガウススプラッティングにおけるロバストな性能を実現する。
論文参考訳（メタデータ） (2025-05-29T01:34:40Z)
Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis [22.767866875051013]
本稿では,現行手法の限界に対処する多視点拡散モデルを用いて,新しい3DGSフレームワークであるGS-Diffを提案する。マルチビュー入力に条件付き擬似観測を生成することにより、制約の少ない3次元再構成問題をよく表されたものに変換する。 4つのベンチマークの実験では、GS-Diffは最先端のベースラインをかなりのマージンで一貫して上回っている。
論文参考訳（メタデータ） (2025-04-02T17:59:46Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
Sparse-view Pose Estimation and Reconstruction via Analysis by Generative Synthesis [25.898616784744377]
観察されたビューの少ないセットを考えると、その観察は完全な正確な3Dを得るのに十分な直接的な証拠を与えていないかもしれない。 a) 新規なビュー合成に基づく生成先行を光度目標と組み合わせて、推定された3Dの質を向上させる方法、(b) アウトレーヤを明示的に推論し、連続最適化に基づく戦略による離散探索を用いて補正する手法であるSparseAGSを提案する。
論文参考訳（メタデータ） (2024-12-04T18:59:24Z)
SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting [4.121797302827049]
ポーズフリーで3次元の事前自由な一般化可能な3次元再構成を実現するための新しい3次元ガウススプラッティングモデルであるSelfSplatを提案する。本モデルでは,これらの課題に対して,自己教師付き深度とポーズ推定手法を効果的に統合することによって対処する。提案手法の性能を評価するため,RealEstate10K,ACID,DL3DVなどの大規模実世界のデータセットを用いて評価を行った。
論文参考訳（メタデータ） (2024-11-26T08:01:50Z)
MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [84.07233691641193]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文参考訳（メタデータ） (2024-11-25T20:07:07Z)
Beyond Gaussians: Fast and High-Fidelity 3D Splatting with Linear Kernels [51.08794269211701]
本稿では,ガウスカーネルを線形カーネルに置き換えて,よりシャープで高精度な結果を得る3Dリニアスティング(DLS)を提案する。 3DLSは、最先端の忠実さと正確さを示し、ベースライン3DGSよりも30%のFPS改善を実現している。
論文参考訳（メタデータ） (2024-11-19T11:59:54Z)
GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-11-18T08:18:44Z)
USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting [45.246178004823534]
スパイクカメラは、0-1ビットストリームを40kHzで撮影する革新的なニューロモルフィックカメラとして、ますます3D再構成タスクに採用されている。以前のスパイクベースの3D再構成アプローチでは、ケースケースのパイプラインを使うことが多い。本稿では,スパイクに基づく画像再構成,ポーズ補正,ガウス的スプラッティングをエンドツーエンドのフレームワークに統一する,相乗的最適化フレームワーク textbfUSP-Gaussian を提案する。
論文参考訳（メタデータ） (2024-11-15T14:15:16Z)
No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:22Z)
EVA-Gaussian: 3D Gaussian-based Real-time Human Novel View Synthesis under Diverse Camera Settings [11.248908608011941]
EVA-Gaussianは、多様なカメラ設定にまたがる3D人間の新しいビュー合成のためのリアルタイムパイプラインである。本稿では,ソース画像から各3次元ガウスの位置を正確に推定するために,EVA (Efficient Cross-View Attention) モジュールを提案する。我々は3次元ガウス属性と人間の顔のランドマークの両方に強力なアンカー損失関数を組み込んだ。
論文参考訳（メタデータ） (2024-10-02T11:23:08Z)
GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
軽量なXFeat特徴抽出器から高密度かつ堅牢なキーポイント記述器を3DGSに統合する2段階の手順を提案する。第2段階では、レンダリングベースの光度ワープ損失を最小限に抑え、初期ポーズ推定を洗練させる。広く使われている屋内および屋外データセットのベンチマークは、最近のニューラルレンダリングベースのローカライゼーション手法よりも改善されていることを示している。
論文参考訳（メタデータ） (2024-09-24T23:18:32Z)
Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis [11.236094544193605]
従来の幾何学に基づくSLAMシステムは、密度の高い3D再構成機能を持たない。本稿では,新しいビュー合成技術である3次元ガウススプラッティングを組み込んだリアルタイムRGB-D SLAMシステムを提案する。
論文参考訳（メタデータ） (2024-08-10T21:23:08Z)
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文参考訳（メタデータ） (2024-06-14T17:53:55Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。