論文の概要: PixSelect: Less but Reliable Pixels for Accurate and Efficient
Localization
- arxiv url: http://arxiv.org/abs/2206.03775v1
- Date: Wed, 8 Jun 2022 09:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 14:38:35.528105
- Title: PixSelect: Less but Reliable Pixels for Accurate and Efficient
Localization
- Title(参考訳): pixselect: 精度と効率のよいローカライズのための信頼性の低いピクセル
- Authors: Mohammad Altillawi
- Abstract要約: 与えられた環境下での1枚のRGB画像からグローバル6DFカメラのポーズを推定する問題に対処する。
私たちの研究は、Cambridge Landmarksデータセットの最先端の手法を超えています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate camera pose estimation is a fundamental requirement for numerous
applications, such as autonomous driving, mobile robotics, and augmented
reality. In this work, we address the problem of estimating the global 6 DoF
camera pose from a single RGB image in a given environment. Previous works
consider every part of the image valuable for localization. However, many image
regions such as the sky, occlusions, and repetitive non-distinguishable
patterns cannot be utilized for localization. In addition to adding unnecessary
computation efforts, extracting and matching features from such regions produce
many wrong matches which in turn degrades the localization accuracy and
efficiency. Our work addresses this particular issue and shows by exploiting an
interesting concept of sparse 3D models that we can exploit discriminatory
environment parts and avoid useless image regions for the sake of a single
image localization. Interestingly, through avoiding selecting keypoints from
non-reliable image regions such as trees, bushes, cars, pedestrians, and
occlusions, our work acts naturally as an outlier filter. This makes our system
highly efficient in that minimal set of correspondences is needed and highly
accurate as the number of outliers is low. Our work exceeds state-ofthe-art
methods on outdoor Cambridge Landmarks dataset. With only relying on single
image at inference, it outweighs in terms of accuracy methods that exploit pose
priors and/or reference 3D models while being much faster. By choosing as
little as 100 correspondences, it surpasses similar methods that localize from
thousands of correspondences, while being more efficient. In particular, it
achieves, compared to these methods, an improvement of localization by 33% on
OldHospital scene. Furthermore, It outstands direct pose regressors even those
that learn from sequence of images
- Abstract(参考訳): 正確なカメラポーズ推定は、自動運転、モバイルロボティクス、拡張現実など、多くのアプリケーションにとって基本的な要件である。
本研究では,与えられた環境において,単一のrgb画像からグローバル6自由度カメラのポーズを推定する問題に対処する。
以前の作品では、画像のすべての部分がローカライゼーションに有用であると考えられていた。
しかし、空やオクルージョン、反復的な非識別可能なパターンなどの多くの画像領域は、ローカライゼーションには利用できない。
不要な計算作業の追加に加えて、そのような領域からの抽出とマッチング機能は多くの間違ったマッチングを生成し、それによってローカライゼーションの精度と効率が低下する。
本研究は, この課題に対処し, 識別環境部品を活用でき, 単一画像のローカライゼーションのために無用な画像領域を回避できる, スパース3Dモデルという興味深い概念を活用できることを示す。
興味深いことに、木、茂み、車、歩行者、閉塞といった信頼性の低い画像領域からキーポイントを選択することを避けることで、我々の仕事は自然にアウトリーフィルタとして機能する。
これにより, 異常値数が少ないため, 最小対応セットが必要であり, 高精度なシステムを実現することができる。
私たちの研究は、Cambridge Landmarksデータセットの最先端の手法を超えています。
推論時に単一のイメージのみに依存するため、より高速な3Dモデルと/または参照モデルを利用する精度の手法よりも優れている。
100以上の対応を選択することで、より効率的でありながら、何千もの対応からローカライズする類似の方法を超える。
特に,これらの手法と比較して,オールドホスピタルシーンにおける局所化の33%向上を実現している。
さらに、画像のシーケンスから学ぶものでさえ、直接ポーズレグレッシャに立たない。
関連論文リスト
- FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - CFL-Net: Image Forgery Localization Using Contrastive Learning [16.668334854459143]
コントラッシブ・ロスを用いて特徴空間へのマッピングを学習し、各画像に対して未修正領域と操作領域の特徴を適切に分離する。
本手法は, 偽造型に関する事前の知識や仮定を必要とせず, 操作領域のローカライズに長けている。
論文 参考訳(メタデータ) (2022-10-04T15:31:30Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Learning Condition Invariant Features for Retrieval-Based Localization
from 1M Images [85.81073893916414]
我々は、より正確で、より一般化されたローカライゼーション特徴を学習する新しい方法を開発した。
難易度の高いオックスフォード・ロボットカーの夜間条件では、5m以内の局所化精度でよく知られた三重項損失を24.4%上回っている。
論文 参考訳(メタデータ) (2020-08-27T14:46:22Z) - Multi-View Optimization of Local Feature Geometry [70.18863787469805]
本研究では,複数視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに精査する問題に対処する。
提案手法は,従来の特徴抽出とマッチングのパラダイムを自然に補完する。
本手法は,手作りと学習の両方の局所的特徴に対して,三角測量とカメラのローカライゼーション性能を常に向上することを示す。
論文 参考訳(メタデータ) (2020-03-18T17:22:11Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。