論文の概要: SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.05174v1
- Date: Fri, 07 Mar 2025 06:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:20:58.646104
- Title: SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting
- Title(参考訳): SplatPose:3次元ガウススプラッティングによる1枚のRGB画像からの幾何学的6-DoF値の推定
- Authors: Linqi Yang, Xiongwei Zhao, Qihao Sun, Ke Wang, Ao Chen, Peng Kang,
- Abstract要約: SplatPoseは3次元ガウススティング(3DGS)を2分岐ニューラルアーキテクチャで合成し,高精度なポーズ推定を実現する新しいフレームワークである。
3つのベンチマークデータセットの実験では、SplatPoseが最先端の6-DoFを1つのRGB設定で推定精度で達成していることが示されている。
- 参考スコア(独自算出の注目度): 3.6688867031495223
- License:
- Abstract: 6-DoF pose estimation is a fundamental task in computer vision with wide-ranging applications in augmented reality and robotics. Existing single RGB-based methods often compromise accuracy due to their reliance on initial pose estimates and susceptibility to rotational ambiguity, while approaches requiring depth sensors or multi-view setups incur significant deployment costs. To address these limitations, we introduce SplatPose, a novel framework that synergizes 3D Gaussian Splatting (3DGS) with a dual-branch neural architecture to achieve high-precision pose estimation using only a single RGB image. Central to our approach is the Dual-Attention Ray Scoring Network (DARS-Net), which innovatively decouples positional and angular alignment through geometry-domain attention mechanisms, explicitly modeling directional dependencies to mitigate rotational ambiguity. Additionally, a coarse-to-fine optimization pipeline progressively refines pose estimates by aligning dense 2D features between query images and 3DGS-synthesized views, effectively correcting feature misalignment and depth errors from sparse ray sampling. Experiments on three benchmark datasets demonstrate that SplatPose achieves state-of-the-art 6-DoF pose estimation accuracy in single RGB settings, rivaling approaches that depend on depth or multi-view images.
- Abstract(参考訳): 6-DoFのポーズ推定は、拡張現実やロボット工学に広く応用されるコンピュータビジョンの基本的なタスクである。
既存のRGBベースの手法は、初期ポーズ推定と回転のあいまいさへの感受性に頼っているため、しばしば精度を損なう。
これらの制約に対処するために、SplatPoseという3Dガウススティング(3DGS)とデュアルブランチニューラルネットワークを併用して、単一のRGB画像のみを用いた高精度ポーズ推定を実現する新しいフレームワークを紹介した。
我々のアプローチの中心は、幾何領域の注意機構を通じて位置と角のアライメントを革新的に分離し、回転のあいまいさを緩和するために方向依存を明示的にモデル化するDual-Attention Ray Scoring Network (DARS-Net)である。
さらに、粗粒度最適化パイプラインは、クエリ画像と3DGS合成ビューの間に密集した2D特徴を整列させ、スパース線サンプリングによる特徴補正と深度誤差を効果的に補正することにより、ポーズ推定を段階的に洗練する。
3つのベンチマークデータセットの実験では、SplatPoseが最先端の6-DoFを1つのRGB設定で推定し、深さや多視点画像に依存するアプローチと競合する。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GS-CPR: Efficient Camera Pose Refinement via 3D Gaussian Splatting [25.780452115246245]
本稿では,新しいテストタイムカメラ・ポーズ・リファインメント(CPR)フレームワーク,GS-CPRを提案する。
このフレームワークは、最先端の絶対ポーズ回帰とシーン座標回帰法の局所化精度を高める。
3DGSモデルは高品質な合成画像と深度マップを描画し、2D-3D対応の確立を容易にする。
論文 参考訳(メタデータ) (2024-08-20T17:58:23Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは、2〜3枚の画像から正確な3D表現を構築する、新規で高速なニューラルリコンストラクションシステムである。
InstantSplatは、フレーム間の密集したステレオ先行とコビジュアライザの関係を統合して、シーンを徐々に拡張することでピクセルアライメントを初期化する。
SSIMは3D-GSでCOLMAPよりも0.3755から0.7624に向上し、複数の3D表現と互換性がある。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - A Combined Approach Toward Consistent Reconstructions of Indoor Spaces
Based on 6D RGB-D Odometry and KinectFusion [7.503338065129185]
キーポイント抽出により連続したRGB-Dフレーム間の相対的なカメラポーズを求める6次元RGB-Dオドメトリー手法を提案する。
推定されたポーズを、フレーム間相対的なポーズを微調整するKinectFusionアルゴリズムに入力する。
提案アルゴリズムは,ポストプロセッシングのステップを使わずに,利用可能なポリゴンメッシュ(3次元仮想世界を作成するのに非常に適している)を出力する。
論文 参考訳(メタデータ) (2022-12-25T22:52:25Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - Extreme Rotation Estimation using Dense Correlation Volumes [73.35119461422153]
本稿では,RGB画像対の相対的な3次元回転を極端に推定する手法を提案する。
画像が重なり合わなくても、それらの幾何学的関係に関して豊富な隠れた手がかりがあるかもしれないと観察する。
本稿では,2つの入力画像間の全ての点を比較することで,そのような暗黙の手がかりを自動的に学習できるネットワーク設計を提案する。
論文 参考訳(メタデータ) (2021-04-28T02:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。