論文の概要: KeyGS: A Keyframe-Centric Gaussian Splatting Method for Monocular Image Sequences
- arxiv url: http://arxiv.org/abs/2412.20767v1
- Date: Mon, 30 Dec 2024 07:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:09.088910
- Title: KeyGS: A Keyframe-Centric Gaussian Splatting Method for Monocular Image Sequences
- Title(参考訳): KeyGS: 単眼画像系列に対するキーフレーム中心ガウス分割法
- Authors: Keng-Wei Chang, Zi-Ming Wang, Shang-Hong Lai,
- Abstract要約: 深度やマッチングモデルなしで動作可能な,効率的なフレームワークを提案する。
そこで本研究では,細かな周波数認識による粗大な密度密度化を提案し,異なるレベルの詳細を再構築する。
- 参考スコア(独自算出の注目度): 14.792295042683254
- License:
- Abstract: Reconstructing high-quality 3D models from sparse 2D images has garnered significant attention in computer vision. Recently, 3D Gaussian Splatting (3DGS) has gained prominence due to its explicit representation with efficient training speed and real-time rendering capabilities. However, existing methods still heavily depend on accurate camera poses for reconstruction. Although some recent approaches attempt to train 3DGS models without the Structure-from-Motion (SfM) preprocessing from monocular video datasets, these methods suffer from prolonged training times, making them impractical for many applications. In this paper, we present an efficient framework that operates without any depth or matching model. Our approach initially uses SfM to quickly obtain rough camera poses within seconds, and then refines these poses by leveraging the dense representation in 3DGS. This framework effectively addresses the issue of long training times. Additionally, we integrate the densification process with joint refinement and propose a coarse-to-fine frequency-aware densification to reconstruct different levels of details. This approach prevents camera pose estimation from being trapped in local minima or drifting due to high-frequency signals. Our method significantly reduces training time from hours to minutes while achieving more accurate novel view synthesis and camera pose estimation compared to previous methods.
- Abstract(参考訳): スパース2D画像から高品質な3Dモデルを再構成することは、コンピュータビジョンにおいて大きな注目を集めている。
近年, 3D Gaussian Splatting (3DGS) が注目されている。
しかし、既存の手法は再建のための正確なカメラのポーズに大きく依存している。
近年、モノクロビデオデータセットからSfM(Structure-from-Motion)を前処理せずに3DGSモデルをトレーニングしようとするアプローチもあるが、これらの手法は長いトレーニング時間に悩まされ、多くのアプリケーションでは実用的ではない。
本稿では,深度モデルやマッチングモデルのない効率的なフレームワークを提案する。
当社のアプローチでは,まずまずSfMを用いて数秒以内の粗いカメラポーズを素早く取得し,さらに3DGSの濃密な表現を活用してこれらのポーズを洗練する。
このフレームワークは、長いトレーニング時間の問題に効果的に対処します。
さらに, 密度化プロセスと関節リファイン化を統合し, 粗大な周波数認識型密度化を提案し, 異なるレベルの細部を再構築する。
このアプローチにより、カメラのポーズ推定が、高周波信号による局所的なミニマやドリフトに閉じ込められるのを防ぐことができる。
提案手法は,従来の方法と比較して,より正確な新しいビュー合成とカメラポーズ推定を実現しつつ,トレーニング時間を数時間から数分に短縮する。
関連論文リスト
- ZeroGS: Training 3D Gaussian Splatting from Unposed Images [62.34149221132978]
我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
論文 参考訳(メタデータ) (2024-11-24T11:20:48Z) - Look Gauss, No Pose: Novel View Synthesis using Gaussian Splatting without Accurate Pose Initialization [11.418632671254564]
3D Gaussian Splattingは、一連の入力画像から高速で正確なノベルビュー合成のための強力なツールとして登場した。
本稿では, 外部カメラパラメータを測光残差に対して最適化することにより, 3次元ガウス散乱フレームワークの拡張を提案する。
シミュレーション環境を通して実世界のシーンと複雑な軌道について結果を示す。
論文 参考訳(メタデータ) (2024-10-11T12:01:15Z) - LP-3DGS: Learning to Prune 3D Gaussian Splatting [71.97762528812187]
本稿では,トレーニング可能な2値マスクを重要度に応用し,最適プルーニング比を自動的に検出する3DGSを提案する。
実験の結果,LP-3DGSは効率と高品質の両面において良好なバランスを保っていることがわかった。
論文 参考訳(メタデータ) (2024-05-29T05:58:34Z) - EvaGaussians: Event Stream Assisted Gaussian Splatting from Blurry Images [36.91327728871551]
3次元ガウススプラッティング(3D-GS)は、3次元シーン再構成と新しいビュー合成において例外的な機能を示した。
本稿では,イベントストリーム支援型ガウシアンスプラッティング(EvaGaussians)について紹介する。これは,イベントカメラがキャプチャしたイベントストリームを統合して,ぼやけた画像から高品質な3D-GSを再構築する手法である。
論文 参考訳(メタデータ) (2024-05-29T04:59:27Z) - A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose [44.13819148680788]
カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化手法を開発した。
具体的には、単分子深度と画素を3次元の世界に投影することで、解を構築する。
タンク・アンド・テンプル・アンド・スタティック・ハイクスのデータセットに3つの広い範囲のビューで結果を示す。
論文 参考訳(メタデータ) (2024-05-06T17:36:44Z) - Bootstrap 3D Reconstructed Scenes from 3D Gaussian Splatting [10.06208115191838]
トレーニングされた3D-GSを用いて,新しいビューのレンダリングを強化するブートストラップ手法を提案する。
以上の結果から,ブートストレッピングはアーティファクトを効果的に削減し,評価指標の明確化を図っている。
論文 参考訳(メタデータ) (2024-04-29T12:57:05Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。