論文の概要: DP-SfM: Dual-Pixel Structure-from-Motion without Scale Ambiguity
- arxiv url: http://arxiv.org/abs/2605.01852v1
- Date: Sun, 03 May 2026 12:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.964941
- Title: DP-SfM: Dual-Pixel Structure-from-Motion without Scale Ambiguity
- Title(参考訳): DP-SfM:Dual-Pixel Structure-from-Motion without Scale Ambiguity
- Authors: Lilika Makabe, Kohei Ashida, Hiroaki Santo, Fumio Okura, Yasuyuki Matsushita,
- Abstract要約: マルチビュー3D再構成は、シーンに既知の大きさの参照オブジェクトが存在しない限り、未知のスケールの曖昧さに悩まされる。
デュアルピクセル(DP)センサを用いて撮像したマルチビュー画像は,そのスケールのあいまいさを自動的に解消できることを示す。
- 参考スコア(独自算出の注目度): 25.991973883422677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-view 3D reconstruction, namely, structure-from-motion followed by multi-view stereo, is a fundamental component of 3D computer vision. In general, multi-view 3D reconstruction suffers from an unknown scale ambiguity unless a reference object of known size is present in the scene. In this article, we show that multi-view images captured using a dual-pixel (DP) sensor can automatically resolve the scale ambiguity, without requiring a reference object or prior calibration. Specifically, the defocus blur observed in DP images provides sufficient information to determine the absolute scale when paired with depth maps (up to scale) recovered from multi-view 3D reconstruction. Based on this observation, we develop a simple yet effective linear method to estimate the absolute scale, followed by the intensity-based optimization stage that aligns the left and right DP images by shifting them back toward each other using cross-view blur kernels. Experiments demonstrate the effectiveness of the proposed approach across diverse scenes captured with different cameras and lenses. Code and data are available at https://github.com/lilika-makabe/dp-sfm-tpami.git
- Abstract(参考訳): マルチビュー3D再構成(Multi-view 3D Restruction)は、3Dコンピュータビジョンの基本コンポーネントである。
一般に、マルチビュー3次元再構成は、シーンに既知の大きさの参照オブジェクトが存在しない限り、未知のスケールの曖昧さに悩まされる。
本稿では、デュアルピクセル(DP)センサを用いて撮像したマルチビュー画像が、参照対象や事前校正を必要とせず、自動的にスケールの曖昧さを解消できることを示す。
具体的には、DP画像に見られるデフォーカスのぼかしは、マルチビュー3D再構成から復元された深度マップ(最大スケール)と対になって絶対スケールを決定するのに十分な情報を提供する。
この観測に基づいて,絶対スケールを推定するための単純で効果的な線形手法を開発し,次に,視界のぼやけたカーネルを用いて,左右のDPイメージを相互に移動させることにより,左右のDPイメージを整列する強度に基づく最適化ステージを提案する。
実験では、様々なカメラとレンズで撮影する様々なシーンにまたがって提案されたアプローチの有効性を実証した。
コードとデータはhttps://github.com/lilika-makabe/dp-sfm-tpami.gitで公開されている。
関連論文リスト
- MapAnything: Universal Feed-Forward Metric 3D Reconstruction [63.79151976126576]
MapAnythingは1つ以上の画像を取り込み、カメラの内在性、ポーズ、深さ、部分的な再構築など、任意の幾何学的入力を行う。
そして、メーター3Dシーンの幾何学とカメラを直接補強する。
MapAnythingは、単一のフィードフォワードパスで幅広い3Dビジョンタスクに対処する。
論文 参考訳(メタデータ) (2025-09-16T18:00:14Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。