論文の概要: 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning
- arxiv url: http://arxiv.org/abs/2005.06147v1
- Date: Wed, 13 May 2020 04:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:17:07.158935
- Title: 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning
- Title(参考訳): 深層学習によるカメラ位置推定のための3次元シーン幾何学的制約
- Authors: Mi Tian, Qiong Nie, Hao Shen
- Abstract要約: 近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
- 参考スコア(独自算出の注目度): 11.599633757222406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera localization is a fundamental and key component of autonomous driving
vehicles and mobile robots to localize themselves globally for further
environment perception, path planning and motion control. Recently end-to-end
approaches based on convolutional neural network have been much studied to
achieve or even exceed 3D-geometry based traditional methods. In this work, we
propose a compact network for absolute camera pose regression. Inspired from
those traditional methods, a 3D scene geometry-aware constraint is also
introduced by exploiting all available information including motion, depth and
image contents. We add this constraint as a regularization term to our proposed
network by defining a pixel-level photometric loss and an image-level
structural similarity loss. To benchmark our method, different challenging
scenes including indoor and outdoor environment are tested with our proposed
approach and state-of-the-arts. And the experimental results demonstrate
significant performance improvement of our method on both prediction accuracy
and convergence efficiency.
- Abstract(参考訳): カメラのローカライゼーションは、自動運転車や移動ロボットの基本的かつ重要なコンポーネントであり、環境認識、経路計画、移動制御のために世界規模でローカライズされる。
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
従来の手法からヒントを得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
この制約を、画素レベルの測光損失と画像レベルの構造的類似性損失を定義することにより、提案ネットワークに正規化項として加える。
本手法をベンチマークするために,提案手法と最先端技術を用いて,屋内環境と屋外環境を含む様々な挑戦シーンを検証した。
実験の結果,予測精度と収束効率の両面において,本手法の有効性が向上した。
関連論文リスト
- VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Visual Geometry Grounded Deep Structure From Motion [20.203320509695306]
本稿では,各コンポーネントが完全に微分可能で,エンドツーエンドでトレーニング可能な,新しいディープパイプラインVGGSfMを提案する。
まず, 深部2次元点追跡の最近の進歩をベースとして, 画素精度の高いトラックを抽出し, ペアマッチングのチェーン化の必要性を解消する。
私たちは、CO3D、IMC Phototourism、ETH3Dという3つの一般的なデータセットで最先端のパフォーマンスを達成しました。
論文 参考訳(メタデータ) (2023-12-07T18:59:52Z) - Global Localization: Utilizing Relative Spatio-Temporal Geometric
Constraints from Adjacent and Distant Cameras [7.836516315882875]
ロボット工学や拡張現実(AR)における多くのコンピュータビジョン応用において、以前にマッピングされた領域でカメラを単一の画像から再ローカライズすることが不可欠である。
本稿では,局所化のためのDeep Networkのトレーニングを指導するために,空間的および時間的制約の新たなネットワークを活用することを提案する。
提案手法は,これらの制約により,比較的少ないあるいは少ない地上3次元座標が利用できる場合に,局所化を学習できることを示す。
論文 参考訳(メタデータ) (2023-12-01T11:03:07Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation [45.39981876226129]
本研究では、カメラのみの3Dシーン理解のための統一的な占有表現の実現を目的とした、カメラベースの3Dパノプティクスセグメンテーションについて研究する。
マルチフレーム画像とマルチビュー画像からのセマンティック情報を集約するために,voxelクエリを利用するPanoOccという新しい手法を提案する。
提案手法は,nuScenesデータセット上でのカメラベースセグメンテーションとパノプティクスセグメンテーションのための最新の結果を実現する。
論文 参考訳(メタデータ) (2023-06-16T17:59:33Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Neural 3D Reconstruction in the Wild [86.6264706256377]
そこで我々は,インターネット写真コレクションから効率よく高精度な表面再構成を実現する新しい手法を提案する。
そこで本研究では,これらのシーンにおける再構成性能を評価するための新しいベンチマークとプロトコルを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:59:53Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。