論文の概要: Object Gaussian for Monocular 6D Pose Estimation from Sparse Views
- arxiv url: http://arxiv.org/abs/2409.02581v1
- Date: Wed, 4 Sep 2024 10:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 19:10:42.913934
- Title: Object Gaussian for Monocular 6D Pose Estimation from Sparse Views
- Title(参考訳): スパースビューからのモノクロ6次元ポス推定のためのオブジェクトガウス
- Authors: Luqing Luo, Shichu Sun, Jiangang Yang, Linfang Zheng, Jinwei Du, Jian Liu,
- Abstract要約: ガウス的手法を用いたスパースビューオブジェクトポーズ推定のための新しいフレームワークであるSGPoseを紹介する。
最大10ビューを与えられたSGPoseは、ランダムな立方体から始めることで幾何学的認識表現を生成する。
典型的なベンチマーク、特にOcclusion LM-Oデータセットの実験では、SGPoseはスパースビューの制約下であっても既存のメソッドよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 4.290993205307184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular object pose estimation, as a pivotal task in computer vision and robotics, heavily depends on accurate 2D-3D correspondences, which often demand costly CAD models that may not be readily available. Object 3D reconstruction methods offer an alternative, among which recent advancements in 3D Gaussian Splatting (3DGS) afford a compelling potential. Yet its performance still suffers and tends to overfit with fewer input views. Embracing this challenge, we introduce SGPose, a novel framework for sparse view object pose estimation using Gaussian-based methods. Given as few as ten views, SGPose generates a geometric-aware representation by starting with a random cuboid initialization, eschewing reliance on Structure-from-Motion (SfM) pipeline-derived geometry as required by traditional 3DGS methods. SGPose removes the dependence on CAD models by regressing dense 2D-3D correspondences between images and the reconstructed model from sparse input and random initialization, while the geometric-consistent depth supervision and online synthetic view warping are key to the success. Experiments on typical benchmarks, especially on the Occlusion LM-O dataset, demonstrate that SGPose outperforms existing methods even under sparse view constraints, under-scoring its potential in real-world applications.
- Abstract(参考訳): コンピュータビジョンやロボティクスにおいて重要なタスクである単眼オブジェクトのポーズ推定は、しばしば手軽に利用できないコストの高いCADモデルを必要とする2D-3Dの正確な対応に大きく依存する。
オブジェクト3D再構成手法は、近年の3Dガウス・スプラッティング(3DGS)の進歩によって、説得力のある可能性を秘めている。
しかし、そのパフォーマンスは依然として苦しめられ、入力ビューが少ないほど過度に適合する傾向がある。
この課題を受け入れるために,ガウス的手法を用いたスパースビューオブジェクトポーズ推定のための新しいフレームワークであるSGPoseを紹介した。
最大10ビューのSGPoseは、ランダムな立方体初期化から始まり、従来の3DGS法で要求されるようなStructure-from-Motion (SfM)パイプライン由来の幾何学に依存することによって、幾何学的認識表現を生成する。
SGPoseは、画像と再構成されたモデル間の密度の高い2D-3D対応をスパース入力とランダム初期化から退避させ、CADモデルへの依存を取り除く。
典型的なベンチマーク、特にOcclusion LM-Oデータセットの実験では、SGPoseはスパースビューの制約下であっても既存のメソッドよりも優れており、現実世界のアプリケーションにおいてその潜在能力を過小評価している。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Effective Rank Analysis and Regularization for Enhanced 3D Gaussian Splatting [33.01987451251659]
3D Gaussian Splatting(3DGS)は、高品質な3D再構成によるリアルタイムレンダリングが可能な有望な技術として登場した。
その可能性にもかかわらず、3DGSは針のようなアーティファクト、準最適ジオメトリー、不正確な正常など、課題に直面している。
正規化として有効なランクを導入し、ガウスの構造を制約する。
論文 参考訳(メタデータ) (2024-06-17T15:51:59Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Deep Learning Assisted Optimization for 3D Reconstruction from Single 2D
Line Drawings [13.532686360047574]
本稿では,3次元物体の幾何学的実体間の対関係を検出するために,ディープニューラルネットワークを訓練することを提案する。
CADモデルの大規模なデータセット実験により、幾何学的制約解決パイプラインにおけるディープラーニングを活用することにより、最適化に基づく3D再構成の成功率を大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-09-06T17:59:11Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。