論文の概要: Unsupervised Simultaneous Learning for Camera Re-Localization and Depth
Estimation from Video
- arxiv url: http://arxiv.org/abs/2203.12804v1
- Date: Thu, 24 Mar 2022 02:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:41:38.015657
- Title: Unsupervised Simultaneous Learning for Camera Re-Localization and Depth
Estimation from Video
- Title(参考訳): カメラ再ローカライズのための教師なし同時学習とビデオからの深さ推定
- Authors: Shun Taguchi and Noriaki Hirose
- Abstract要約: 本稿では,モノクロカメラの再位置推定と,ラベルなし映像列からの深度推定を行うための教師なし同時学習フレームワークを提案する。
本フレームワークでは,シーン座標を方向から推定する2つのネットワークと,カメラのポーズを推定するために合成された各画像からの深度マップを訓練する。
また,本手法は,訓練された環境下での最先端の単分子深度推定よりも優れていた。
- 参考スコア(独自算出の注目度): 4.5307040147072275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an unsupervised simultaneous learning framework for the task of
monocular camera re-localization and depth estimation from unlabeled video
sequences. Monocular camera re-localization refers to the task of estimating
the absolute camera pose from an instance image in a known environment, which
has been intensively studied for alternative localization in GPS-denied
environments. In recent works, camera re-localization methods are trained via
supervised learning from pairs of camera images and camera poses. In contrast
to previous works, we propose a completely unsupervised learning framework for
camera re-localization and depth estimation, requiring only monocular video
sequences for training. In our framework, we train two networks that estimate
the scene coordinates using directions and the depth map from each image which
are then combined to estimate the camera pose. The networks can be trained
through the minimization of loss functions based on our loop closed view
synthesis. In experiments with the 7-scenes dataset, the proposed method
outperformed the re-localization of the state-of-the-art visual SLAM,
ORB-SLAM3. Our method also outperforms state-of-the-art monocular depth
estimation in a trained environment.
- Abstract(参考訳): 本稿では,単眼カメラの再局所化と奥行き推定のための教師なし同時学習フレームワークを提案する。
単眼カメラ再局在化(英: monocular camera re-localization)とは、既知の環境でのインスタンス画像から絶対的なカメラポーズを推定するタスクである。
近年の研究では、カメラ画像とカメラポーズのペアから教師付き学習を通じて、カメラの再ローカライズ方法を訓練している。
先行研究とは対照的に,カメラの再局所化と深度推定のための教師なし学習フレームワークを提案する。
本フレームワークでは,シーン座標を方向から推定する2つのネットワークと,カメラのポーズを推定するために合成された各画像からの深度マップを訓練する。
ネットワークはループクローズドビュー合成に基づく損失関数の最小化を通じてトレーニングすることができる。
7-scenesデータセットを用いた実験では、提案手法は最先端の視覚SLAMであるORB-SLAM3の再局在よりも優れていた。
本手法は,訓練環境において最先端の単眼深度推定よりも優れる。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Continual Learning for Image-Based Camera Localization [14.47046413243358]
連続学習環境における視覚的局所化の問題について検討する。
以上の結果から,非定常データも分類領域と同様,深層ネットワークにおいて視覚的局所化のための破滅的な忘れを生じさせることが示された。
本稿では,バッファリングプロセスにおける既存のサンプリング戦略を視覚的ローカライゼーションの問題に適応させる,カバレッジスコア(Buff-CS)に基づく新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-08-20T11:18:05Z) - Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes [85.56602190773684]
従来のカメラ幾何学を用いて異なる視点からソースイメージを再レンダリングするビュー合成という考え方に基づいている。
映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。
論文 参考訳(メタデータ) (2021-05-05T17:08:10Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z) - Dual-Triplet Metric Learning for Unsupervised Domain Adaptation in
Video-Based Face Recognition [8.220945563455848]
新しいビデオカメラでキャプチャしたラベルのないトラックレットを用いて、シームズネットワークのCNN埋め込みに適応する新しいディープドメイン適応(DA)法を提案する。
提案手法は,異なるトレーニングシナリオ下での深層シームズネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2020-02-11T05:06:30Z) - Unsupervised Learning of Camera Pose with Compositional Re-estimation [10.251550038802343]
入力ビデオシーケンスが与えられた場合、カメラのポーズ(つまりカメラの動き)を連続フレーム間で推定する。
本稿では,カメラポーズ推定のための合成再推定手法を提案する。
我々のアプローチは、予測されたカメラの動きを量的にも視覚的にも著しく改善する。
論文 参考訳(メタデータ) (2020-01-17T18:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。