Fugu-MT 論文翻訳(概要): No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images

論文の概要: No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images

arxiv url: http://arxiv.org/abs/2410.24207v1
Date: Thu, 31 Oct 2024 17:58:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.981538
Title: No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images
Title（参考訳）: 意外なほどシンプルな3Dガウシアンスプラッター
Authors: Botao Ye, Sifei Liu, Haofei Xu, Xueting Li, Marc Pollefeys, Ming-Hsuan Yang, Songyou Peng,
Abstract要約: NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
参考スコア（独自算出の注目度）: 100.80376573969045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce NoPoSplat, a feed-forward model capable of reconstructing 3D scenes parameterized by 3D Gaussians from \textit{unposed} sparse multi-view images. Our model, trained exclusively with photometric loss, achieves real-time 3D Gaussian reconstruction during inference. To eliminate the need for accurate pose input during reconstruction, we anchor one input view's local camera coordinates as the canonical space and train the network to predict Gaussian primitives for all views within this space. This approach obviates the need to transform Gaussian primitives from local coordinates into a global coordinate system, thus avoiding errors associated with per-frame Gaussians and pose estimation. To resolve scale ambiguity, we design and compare various intrinsic embedding methods, ultimately opting to convert camera intrinsics into a token embedding and concatenate it with image tokens as input to the model, enabling accurate scene scale prediction. We utilize the reconstructed 3D Gaussians for novel view synthesis and pose estimation tasks and propose a two-stage coarse-to-fine pipeline for accurate pose estimation. Experimental results demonstrate that our pose-free approach can achieve superior novel view synthesis quality compared to pose-required methods, particularly in scenarios with limited input image overlap. For pose estimation, our method, trained without ground truth depth or explicit matching loss, significantly outperforms the state-of-the-art methods with substantial improvements. This work makes significant advances in pose-free generalizable 3D reconstruction and demonstrates its applicability to real-world scenarios. Code and trained models are available at https://noposplat.github.io/.
Abstract（参考訳）: In this introduced NoPoSplat, a feed-forward model can constructing 3D Gaussians from \textit{unposed} sparse multi-view images。光量損失を専門にトレーニングした本モデルは,推定中のリアルタイムな3次元ガウス再構成を実現する。再建時に正確なポーズ入力を不要にするため、入力ビューのローカルカメラ座標を標準空間として固定し、ネットワークをトレーニングして、この空間内のすべてのビューに対してガウス原始を予測させる。このアプローチは、ガウス原始体を局所座標から大域座標系に変換する必要性を排除し、フレームごとのガウス原始体と関連する誤差を回避し、推定を行う。スケールのあいまいさを解決するため,様々な内在的埋め込み手法を設計・比較し,最終的にカメラの内在的埋め込みをトークンの埋め込みに変換し,それをモデルへの入力として画像トークンと結合させ,正確なシーンスケール予測を可能にする。再構成された3次元ガウスアンを新しいビュー合成とポーズ推定に利用し、正確なポーズ推定のための2段階の粗いパイプラインを提案する。提案手法は,特に入力画像の重なりが限定された場合において,ポーズ要求手法よりも優れた新規ビュー合成品質が得られることを示す。ポーズ推定では,提案手法は,真相の深さや明示的な一致損失を伴わずに訓練され,最先端の手法よりも大幅に向上した。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。コードとトレーニングされたモデルはhttps://noposplat.github.io/.com/で公開されている。

関連論文リスト

No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [17.221166075016257]
SPFSplatはスパース多視点画像から3次元ガウススプラッティングを行うための効率的なフレームワークである。共有機能抽出バックボーンを使用し、3Dガウスプリミティブとカメラポーズの同時予測を可能にする。視点の大幅な変化や画像重なりの制限の下でも、新しいビュー合成における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-02T03:19:13Z)
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [57.13066710710485]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文参考訳（メタデータ） (2025-05-29T17:49:56Z)
Pose-free 3D Gaussian splatting via shape-ray estimation [19.489216159648404]
ポーズフリーでフィードフォワードのガウススプレイティングフレームワークであるSHAREを紹介する。関節形状とカメラ線推定によりあいまいさを克服する。提案手法はポーズフリーな一般化可能なガウススプラッティングにおけるロバストな性能を実現する。
論文参考訳（メタデータ） (2025-05-29T01:34:40Z)
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [59.77970844874235]
スパースビュー画像から高品質な3Dガウス画像を生成することができるフィードフォワード再構築フレームワークであるFreeSplatterを提案する。 FreeSplatterは、シーケンシャルな自己アテンションブロックで構成される、合理化されたトランスフォーマーアーキテクチャ上に構築されている。テキスト・画像・3Dコンテンツ作成など,下流アプリケーションの生産性を高めるFreeSplatterの可能性を示す。
論文参考訳（メタデータ） (2024-12-12T18:52:53Z)
PreF3R: Pose-Free Feed-Forward 3D Gaussian Splatting from Variable-length Image Sequence [3.61512056914095]
可変長の画像列から,PreF3R, Pose-Free Feed-forward 3D再構成を提案する。 PreF3Rは、カメラキャリブレーションの必要性を排除し、正準座標フレーム内の3次元ガウス場を、未提示画像のシーケンスから直接再構成する。
論文参考訳（メタデータ） (2024-11-25T19:16:29Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-11-18T08:18:44Z)
USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting [45.246178004823534]
スパイクカメラは、0-1ビットストリームを40kHzで撮影する革新的なニューロモルフィックカメラとして、ますます3D再構成タスクに採用されている。以前のスパイクベースの3D再構成アプローチでは、ケースケースのパイプラインを使うことが多い。本稿では,スパイクに基づく画像再構成,ポーズ補正,ガウス的スプラッティングをエンドツーエンドのフレームワークに統一する,相乗的最適化フレームワーク textbfUSP-Gaussian を提案する。
論文参考訳（メタデータ） (2024-11-15T14:15:16Z)
PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文参考訳（メタデータ） (2024-10-29T15:28:15Z)
UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images [20.089890859122168]
我々は,新しい3次元ガウス再構成と新しいビュー合成モデルであるUniGSを紹介する。 UniGSは、任意の数のスパースビュー画像から3Dガウスの高忠実度表現を予測する。
論文参考訳（メタデータ） (2024-10-17T03:48:02Z)
GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
軽量なXFeat特徴抽出器から高密度かつ堅牢なキーポイント記述器を3DGSに統合する2段階の手順を提案する。第2段階では、レンダリングベースの光度ワープ損失を最小限に抑え、初期ポーズ推定を洗練させる。広く使われている屋内および屋外データセットのベンチマークは、最近のニューラルレンダリングベースのローカライゼーション手法よりも改善されていることを示している。
論文参考訳（メタデータ） (2024-09-24T23:18:32Z)
A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose [44.13819148680788]
カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化手法を開発した。具体的には、単分子深度と画素を3次元の世界に投影することで、解を構築する。タンク・アンド・テンプル・アンド・スタティック・ハイクスのデータセットに3つの広い範囲のビューで結果を示す。
論文参考訳（メタデータ） (2024-05-06T17:36:44Z)
InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。 InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。 3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文参考訳（メタデータ） (2024-03-29T17:29:58Z)
iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。 3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文参考訳（メタデータ） (2023-12-14T15:31:33Z)
GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文参考訳（メタデータ） (2023-12-04T18:59:55Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。