論文の概要: WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization
- arxiv url: http://arxiv.org/abs/2403.15272v1
- Date: Fri, 22 Mar 2024 15:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:59:49.697141
- Title: WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization
- Title(参考訳): WSCLOC:スパークビューカメラのリローカライズ
- Authors: Jialu Wang, Kaichen Zhou, Andrew Markham, Niki Trigoni,
- Abstract要約: WSCLocは、様々なディープラーニングベースの再ローカライゼーションモデルにカスタマイズできるシステムである。
最初の段階では、WSCLocはWFT-NeRFと呼ばれる多層パーセプトロン構造を用いて画像再構成の品質を最適化する。
第2段階では,事前学習したWFT-NeRFとWFT-Poseを併用する。
- 参考スコア(独自算出の注目度): 42.85368902409545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advancements in deep learning for camera relocalization tasks, obtaining ground truth pose labels required for the training process remains a costly endeavor. While current weakly supervised methods excel in lightweight label generation, their performance notably declines in scenarios with sparse views. In response to this challenge, we introduce WSCLoc, a system capable of being customized to various deep learning-based relocalization models to enhance their performance under weakly-supervised and sparse view conditions. This is realized with two stages. In the initial stage, WSCLoc employs a multilayer perceptron-based structure called WFT-NeRF to co-optimize image reconstruction quality and initial pose information. To ensure a stable learning process, we incorporate temporal information as input. Furthermore, instead of optimizing SE(3), we opt for $\mathfrak{sim}(3)$ optimization to explicitly enforce a scale constraint. In the second stage, we co-optimize the pre-trained WFT-NeRF and WFT-Pose. This optimization is enhanced by Time-Encoding based Random View Synthesis and supervised by inter-frame geometric constraints that consider pose, depth, and RGB information. We validate our approaches on two publicly available datasets, one outdoor and one indoor. Our experimental results demonstrate that our weakly-supervised relocalization solutions achieve superior pose estimation accuracy in sparse-view scenarios, comparable to state-of-the-art camera relocalization methods. We will make our code publicly available.
- Abstract(参考訳): カメラ再ローカライゼーションタスクにおけるディープラーニングの進歩にもかかわらず、トレーニングプロセスに必要な基礎的な真実のポーズラベルを取得することは、依然としてコストがかかる作業である。
現在の弱い教師付き手法は軽量なラベル生成に優れているが、その性能はスパースビューのシナリオで顕著に低下している。
この課題に対応するために,WSCLocを導入した。WSCLocは様々な深層学習に基づく再ローカライゼーションモデルにカスタマイズ可能なシステムで,弱教師付き・疎視条件下での性能を向上させる。
これは2段階で実現される。
初期段階では、WSCLocはWFT-NeRFと呼ばれる多層パーセプトロン構造を用いて、画像再構成の品質と初期ポーズ情報の共同最適化を行う。
安定した学習プロセスを確保するため、時間情報を入力として組み込む。
さらに、SE(3)を最適化する代わりに、スケール制約を明示的に強制するために$\mathfrak{sim}(3)$最適化を選択する。
第2段階では,事前学習したWFT-NeRFとWFT-Poseを併用する。
この最適化は、時間エンコーディングに基づくランダムビュー合成によって強化され、ポーズ、深さ、RGB情報を考慮したフレーム間幾何学的制約によって監督される。
我々は,屋外と屋内の2つの公開データセットに対して,我々のアプローチを検証する。
実験により,我々の弱教師付き再局在化ソリューションはスパースビューのシナリオにおいて,最先端のカメラ再局在法に匹敵する優れたポーズ推定精度が得られることが示された。
コードを公開します。
関連論文リスト
- SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds [91.77050739918037]
スパース画像からの新しいビュー合成(NVS)は3次元コンピュータビジョンにおいて大きく進歩している。
これはStructure-from-Motion (SfM) を用いたカメラパラメータの正確な初期推定に依存する
本研究では,スパースビュー画像から堅牢なNVSを向上するための,新規で効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting [58.41056963451056]
本稿では,3次元ガウススプラッティングに基づく数ショットビュー合成フレームワークを提案する。
このフレームワークは3つのトレーニングビューでリアルタイムおよびフォトリアリスティックなビュー合成を可能にする。
FSGSは、さまざまなデータセットの精度とレンダリング効率の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T09:30:02Z) - CLIP Brings Better Features to Visual Aesthetics Learners [12.0962117940694]
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
論文 参考訳(メタデータ) (2023-07-28T16:00:21Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - SC-wLS: Towards Interpretable Feed-forward Camera Re-localization [29.332038781334443]
視覚的再ローカライゼーションは、ロボット工学や拡張現実といったアプリケーションにとって不可欠な、既知の環境でのカメラのポーズの回復を目的としている。
フィードフォワード絶対カメラは、ネットワークによって直接ポーズを出力するが、精度が低い。
重み付き最小二乗の回帰に対するすべてのシーン座標推定を生かしたSC-wLSというフィードフォワード手法を提案する。
論文 参考訳(メタデータ) (2022-10-23T15:15:48Z) - LATITUDE: Robotic Global Localization with Truncated Dynamic Low-pass
Filter in City-scale NeRF [5.364698641882657]
都市規模ニューラルレージアンスフィールド(NeRF)における2段階位置決め機構について述べる。
位置認識の段階では、トレーニングされたNeRFから生成された画像を通して回帰器を訓練し、グローバルなローカライゼーションの初期値を提供する。
ポーズ最適化の段階では、タンジェント平面上でのポーズを直接最適化することにより、観測画像とレンダリング画像との間の残差を最小化する。
提案手法を合成・実世界の双方で評価し,大規模都市景観における高精度ナビゲーションの可能性を示す。
論文 参考訳(メタデータ) (2022-09-18T07:56:06Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。