論文の概要: Visual Camera Re-Localization from RGB and RGB-D Images Using DSAC
- arxiv url: http://arxiv.org/abs/2002.12324v4
- Date: Fri, 9 Oct 2020 15:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:55:12.127454
- Title: Visual Camera Re-Localization from RGB and RGB-D Images Using DSAC
- Title(参考訳): DSACを用いたRGBおよびRGB-D画像からの視覚カメラ再ローカライゼーション
- Authors: Eric Brachmann and Carsten Rother
- Abstract要約: 本稿では,既知の環境に対する単一入力画像から,カメラの位置と向きを推定する学習ベースシステムについて述べる。
最小限の場合、我々のシステムは訓練時にRGB画像と地上の真実ポーズのみを必要とし、テスト時に1枚のRGB画像しか必要としない。
- 参考スコア(独自算出の注目度): 46.20308305148577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a learning-based system that estimates the camera position and
orientation from a single input image relative to a known environment. The
system is flexible w.r.t. the amount of information available at test and at
training time, catering to different applications. Input images can be RGB-D or
RGB, and a 3D model of the environment can be utilized for training but is not
necessary. In the minimal case, our system requires only RGB images and ground
truth poses at training time, and it requires only a single RGB image at test
time. The framework consists of a deep neural network and fully differentiable
pose optimization. The neural network predicts so called scene coordinates,
i.e. dense correspondences between the input image and 3D scene space of the
environment. The pose optimization implements robust fitting of pose parameters
using differentiable RANSAC (DSAC) to facilitate end-to-end training. The
system, an extension of DSAC++ and referred to as DSAC*, achieves
state-of-the-art accuracy an various public datasets for RGB-based
re-localization, and competitive accuracy for RGB-D-based re-localization.
- Abstract(参考訳): 本稿では,既知の環境に対する単一入力画像から,カメラの位置と向きを推定する学習ベースシステムについて述べる。
システムは柔軟で、テスト時とトレーニング時に利用可能な情報の量であり、異なるアプリケーションに対応している。
入力画像はRGB-DやRGBでもよいし、環境の3Dモデルはトレーニングに利用できるが、必要ではない。
最小限の場合、我々のシステムは訓練時にRGB画像と地上の真実ポーズのみを必要とし、テスト時に1枚のRGB画像しか必要としない。
このフレームワークはディープニューラルネットワークと、完全に微分可能なポーズ最適化で構成されている。
ニューラルネットワークは、入力画像と環境の3Dシーン空間との間の密接な対応を、いわゆるシーン座標を予測する。
ポーズ最適化は、エンドツーエンドのトレーニングを容易にするために、微分可能なRANSAC(DSAC)を使用して、ポーズパラメータの堅牢なフィッティングを実装している。
DSAC++を拡張してDSAC*と呼ばれるこのシステムは、RGBベースの再ローカライゼーションのための様々な公開データセットの最先端精度と、RGB-Dベースの再ローカライゼーションのための競合精度を達成する。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - Semantic RGB-D Image Synthesis [22.137419841504908]
この問題に対処するために,意味的RGB-D画像合成を導入する。
しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータには対応できない。
意味的レイアウトのモーダル非依存情報とモーダル依存情報とを分離したマルチモーダルデータのジェネレータを提案する。
論文 参考訳(メタデータ) (2023-08-22T11:16:24Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Learning Geodesic-Aware Local Features from RGB-D Images [8.115075181267109]
非剛性変形に不変なRGB-D画像から記述子を計算するための新しい手法を提案する。
提案手法は,非歪な局所像パッチ上で特徴表現を学習する鍵となる考え方に基づいている。
実際に利用可能なRGB-Dデータベンチマークを使用したさまざまな実験では、最先端の手作りおよび学習ベースのイメージとRGB-D記述子を一貫して上回っている。
論文 参考訳(メタデータ) (2022-03-22T19:52:49Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Category-Level 3D Non-Rigid Registration from Single-View RGB Images [28.874008960264202]
CNNを用いたRGB画像からの3次元非剛性登録問題の解法を提案する。
我々の目的は、与えられた3次元標準模型を1枚のRGB画像で観察された新しいインスタンスに整合する変形場を見つけることである。
論文 参考訳(メタデータ) (2020-08-17T10:35:19Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。