論文の概要: Doctoral Thesis: Geometric Deep Learning For Camera Pose Prediction, Registration, Depth Estimation, and 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2509.01873v1
- Date: Tue, 02 Sep 2025 01:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.87244
- Title: Doctoral Thesis: Geometric Deep Learning For Camera Pose Prediction, Registration, Depth Estimation, and 3D Reconstruction
- Title(参考訳): 博士論文:カメラポーズ予測・登録・深さ推定・3次元再構成のための幾何学的深層学習
- Authors: Xueyang Kang,
- Abstract要約: この論文は、3Dビジョンの基本的な課題に対する解決策を提供する。
カメラポーズ推定,点雲登録,深度予測,3次元再構成などの重要なタスクに適した幾何学的深層学習手法を開発する。
デジタル文化遺産保存や没入型VR/AR環境など、現実世界のアプリケーションで有効性を示すものだ。
- 参考スコア(独自算出の注目度): 1.8782750537161614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning developments create new opportunities for 3D mapping technology, scene reconstruction pipelines, and virtual reality development. Despite advances in 3D deep learning technology, direct training of deep learning models on 3D data faces challenges due to the high dimensionality inherent in 3D data and the scarcity of labeled datasets. Structure-from-motion (SfM) and Simultaneous Localization and Mapping (SLAM) exhibit robust performance when applied to structured indoor environments but often struggle with ambiguous features in unstructured environments. These techniques often struggle to generate detailed geometric representations effective for downstream tasks such as rendering and semantic analysis. Current limitations require the development of 3D representation methods that combine traditional geometric techniques with deep learning capabilities to generate robust geometry-aware deep learning models. The dissertation provides solutions to the fundamental challenges in 3D vision by developing geometric deep learning methods tailored for essential tasks such as camera pose estimation, point cloud registration, depth prediction, and 3D reconstruction. The integration of geometric priors or constraints, such as including depth information, surface normals, and equivariance into deep learning models, enhances both the accuracy and robustness of geometric representations. This study systematically investigates key components of 3D vision, including camera pose estimation, point cloud registration, depth estimation, and high-fidelity 3D reconstruction, demonstrating their effectiveness across real-world applications such as digital cultural heritage preservation and immersive VR/AR environments.
- Abstract(参考訳): 現代のディープラーニング開発は、3Dマッピング技術、シーン再構築パイプライン、仮想現実開発のための新たな機会を生み出している。
3Dディープラーニング技術の進歩にもかかわらず、3Dデータに固有の高次元性とラベル付きデータセットの不足により、3Dデータ上でのディープラーニングモデルの直接的なトレーニングは課題に直面している。
構造移動 (Structure-from-motion, SfM) と同時局在マッピング (SLAM) は、構造化屋内環境に適用された場合、頑健な性能を示すが、非構造化環境における曖昧な特徴に苦慮することが多い。
これらのテクニックは、レンダリングやセマンティック分析といった下流のタスクに有効な詳細な幾何学的表現を生成するのに苦労することが多い。
現在の制限は、従来の幾何学的手法と深層学習能力を組み合わせて、堅牢な幾何学的認識深層学習モデルを生成する3D表現法の開発を必要とする。
この論文は、カメラポーズ推定、ポイントクラウド登録、深さ予測、および3D再構成といった重要なタスクに適した幾何学的深層学習手法を開発することで、3Dビジョンの基本的な課題に対する解決策を提供する。
深度情報、表面正規化、およびディープラーニングモデルへの等値を含む幾何学的事前や制約の統合は、幾何学的表現の正確性と堅牢性の両方を高める。
本研究は,デジタル文化遺産保存や没入型VR/AR環境などの現実的な応用において,カメラポーズ推定,点雲登録,深度推定,高忠実度3D再構成などの3D視覚の重要な構成要素を体系的に検討する。
関連論文リスト
- A Generative Approach to High Fidelity 3D Reconstruction from Text Data [0.0]
本研究では,テキスト・画像生成をシームレスに統合する完全自動パイプライン,様々な画像処理技術,反射除去と3次元再構成のためのディープラーニング手法を提案する。
安定拡散のような最先端の生成モデルを活用することで、この手法は自然言語の入力を多段階のワークフローを通じて詳細な3Dモデルに変換する。
このアプローチは、意味的コヒーレンスを維持すること、幾何学的複雑さを管理すること、詳細な視覚情報を保存することなど、生成的再構築における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-03-05T16:54:15Z) - Back to the Future Cyclopean Stereo: a human perception approach combining deep and geometric constraints [3.336618863186337]
サイクロペアン眼モデルによる解析的3次元表面モデルを提供する。
この幾何学的基礎と学習されたステレオ特徴を組み合わせることで、システムは両方のアプローチの強みの恩恵を受けることができる。
本研究の目的は,三次元表面の幾何学的性質の理解とモデリングがコンピュータビジョン研究に有用であることを示すことである。
論文 参考訳(メタデータ) (2025-02-28T17:58:20Z) - Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.23625950905638]
6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。
本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文 参考訳(メタデータ) (2024-12-11T08:27:33Z) - SR-CurvANN: Advancing 3D Surface Reconstruction through Curvature-Aware Neural Networks [0.0]
SR-CurvANNは、ニューラルネットワークベースの2Dインペイントを組み込んで、3D表面を効果的に再構築する新しい手法である。
SR-CurvANNは形状完成過程において優れており、穴を目覚ましいリアリズムと精度で埋める。
論文 参考訳(メタデータ) (2024-07-25T09:36:37Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。