論文の概要: ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2408.09042v1
- Date: Fri, 16 Aug 2024 22:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:56:40.590549
- Title: ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation
- Title(参考訳): ADen: スパースビューカメラポーズ推定のための適応密度表現
- Authors: Hao Tang, Weiyao Wang, Pierre Gleize, Matt Feiszli,
- Abstract要約: 画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
- 参考スコア(独自算出の注目度): 17.097170273209333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recovering camera poses from a set of images is a foundational task in 3D computer vision, which powers key applications such as 3D scene/object reconstructions. Classic methods often depend on feature correspondence, such as keypoints, which require the input images to have large overlap and small viewpoint changes. Such requirements present considerable challenges in scenarios with sparse views. Recent data-driven approaches aim to directly output camera poses, either through regressing the 6DoF camera poses or formulating rotation as a probability distribution. However, each approach has its limitations. On one hand, directly regressing the camera poses can be ill-posed, since it assumes a single mode, which is not true under symmetry and leads to sub-optimal solutions. On the other hand, probabilistic approaches are capable of modeling the symmetry ambiguity, yet they sample the entire space of rotation uniformly by brute-force. This leads to an inevitable trade-off between high sample density, which improves model precision, and sample efficiency that determines the runtime. In this paper, we propose ADen to unify the two frameworks by employing a generator and a discriminator: the generator is trained to output multiple hypotheses of 6DoF camera pose to represent a distribution and handle multi-mode ambiguity, and the discriminator is trained to identify the hypothesis that best explains the data. This allows ADen to combine the best of both worlds, achieving substantially higher precision as well as lower runtime than previous methods in empirical evaluations.
- Abstract(参考訳): 画像からカメラのポーズを復元することは3Dコンピュータビジョンの基本課題であり、3Dシーン/オブジェクト再構成などの重要なアプリケーションを動かす。
古典的な手法はしばしばキーポイントのような特徴対応に依存し、入力画像は大きな重なり合いと小さな視点の変化を必要とする。
このような要件は、スパースビューのシナリオでかなりの課題をもたらします。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
しかし、それぞれのアプローチには限界がある。
一方、カメラのポーズを直接退避させることは、単一のモードを前提としており、これは対称性の下では正しくなく、準最適解をもたらすためである。
一方、確率論的アプローチは対称性のあいまいさをモデル化することができるが、彼らはブルート力で回転空間全体を均一にサンプリングする。
これにより、モデル精度を改善する高密度のサンプルと、実行時を決定するサンプル効率との間に必然的なトレードオフが生じます。
本稿では,2つのフレームワークをジェネレータと識別器を用いて統合することを提案する。このジェネレータは,分布を表すために6DoFカメラの複数の仮説を出力し,複数のモードのあいまいさを扱うように訓練され,識別器はデータを最もよく説明する仮説を特定するために訓練される。
これにより、ADenは両方の世界の最高のものを組み合わせることができ、経験的評価において以前の方法よりもはるかに精度が高く、ランタイムも低くなる。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - Probabilistic Triangulation for Uncalibrated Multi-View 3D Human Pose
Estimation [22.127170452402332]
本稿では,3次元人間のポーズ推定手法に組み込むことができる新しい確率的三角測量モジュールを提案する。
本手法は,推定精度と一般化可能性のトレードオフを実現する。
論文 参考訳(メタデータ) (2023-09-09T11:03:37Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - A Probabilistic Framework for Visual Localization in Ambiguous Scenes [64.13544430239267]
本稿では,カメラポーズの任意の形状の後部分布を予測する確率的枠組みを提案する。
我々は、予測分布からサンプリングできる変分推論を用いて、カメラポーズ回帰の新たな定式化によってこれを行う。
本手法は,不明瞭なシーンの局所化において,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-01-05T14:46:54Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。