Fugu-MT 論文翻訳(概要): Cameras as Rays: Pose Estimation via Ray Diffusion

論文の概要: Cameras as Rays: Pose Estimation via Ray Diffusion

arxiv url: http://arxiv.org/abs/2402.14817v1
Date: Thu, 22 Feb 2024 18:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 13:57:38.357638
Title: Cameras as Rays: Pose Estimation via Ray Diffusion
Title（参考訳）: カメラを光として:光拡散によるポーズ推定
Authors: Jason Y. Zhang, Amy Lin, Moneish Kumar, Tzu-Hsuan Yang, Deva Ramanan, Shubham Tulsiani
Abstract要約: カメラのポーズを推定することは3D再構築の基本的な課題であり、まばらな視点では依然として挑戦的である。本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
参考スコア（独自算出の注目度）: 57.32374715650491
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating camera poses is a fundamental task for 3D reconstruction and remains challenging given sparse views (<10). In contrast to existing approaches that pursue top-down prediction of global parametrizations of camera extrinsics, we propose a distributed representation of camera pose that treats a camera as a bundle of rays. This representation allows for a tight coupling with spatial image features improving pose precision. We observe that this representation is naturally suited for set-level level transformers and develop a regression-based approach that maps image patches to corresponding rays. To capture the inherent uncertainties in sparse-view pose inference, we adapt this approach to learn a denoising diffusion model which allows us to sample plausible modes while improving performance. Our proposed methods, both regression- and diffusion-based, demonstrate state-of-the-art performance on camera pose estimation on CO3D while generalizing to unseen object categories and in-the-wild captures.
Abstract（参考訳）: カメラのポーズの推定は3次元再構成の基本的なタスクであり、スパースビューを考えると依然として困難である(10)。カメラ外部のグローバルなパラメトリゼーションをトップダウンで予測する既存のアプローチとは対照的に,カメラを光束として扱うカメラポーズの分散表現を提案する。この表現は、ポーズ精度を向上させる空間像特徴との密結合を可能にする。この表現は、設定レベル変換器に自然に適しており、画像パッチを対応する光線にマッピングする回帰ベースのアプローチを開発する。スパース・ビュー・ポーズ推論における不確かさを捉えるため,本手法を適応し,可視モードのサンプリングを可能とし,性能の向上を図る。提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を実証し,未確認対象のカテゴリや被写体キャプチャに一般化した。

関連論文リスト

GCRayDiffusion: Pose-Free Surface Reconstruction via Geometric Consistent Ray Diffusion [30.773599974914415]
従来のアプローチでは、高密度ビュー設定において、ポーズのない表面再構成結果が顕著に達成されている。カメラポーズ推定の線量拡散から抽出した明示的な点による学習を規則化する,ポーズレス表面再構成のための新しい手法を提案する。我々のGCRayDiffusionは、幾何的に一貫した表面再構成結果により、従来のアプローチよりも正確なカメラポーズ推定を実現している。
論文参考訳（メタデータ） (2025-03-28T11:45:09Z)
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文参考訳（メタデータ） (2024-12-12T18:52:53Z)
Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文参考訳（メタデータ） (2024-11-26T09:04:37Z)
No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:22Z)
PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文参考訳（メタデータ） (2024-10-29T15:28:15Z)
FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文参考訳（メタデータ） (2024-09-11T18:58:16Z)
ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文参考訳（メタデータ） (2024-08-16T22:45:46Z)
SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文参考訳（メタデータ） (2024-04-19T04:51:18Z)
iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。 3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文参考訳（メタデータ） (2023-12-14T15:31:33Z)
Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-12-14T08:17:42Z)
Learning Robust Multi-Scale Representation for Neural Radiance Fields from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文参考訳（メタデータ） (2023-11-08T08:18:23Z)
RelPose: Predicting Probabilistic Relative Rotation for Single Objects in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文参考訳（メタデータ） (2022-08-11T17:59:59Z)
ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。 (ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文参考訳（メタデータ） (2022-05-05T13:33:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。