論文の概要: LoCUS: Learning Multiscale 3D-consistent Features from Posed Images
- arxiv url: http://arxiv.org/abs/2310.01095v1
- Date: Mon, 2 Oct 2023 11:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:23:10.764424
- Title: LoCUS: Learning Multiscale 3D-consistent Features from Posed Images
- Title(参考訳): LoCUS:posed Imagesからマルチスケールな3D一貫性のある特徴を学習
- Authors: Dominik A. Kloepfer, Dylan Campbell, Jo\~ao F. Henriques
- Abstract要約: 我々は、監督なしに多目的な神経表現を訓練する。
検索セットを慎重に構築することで、検索と再利用のバランスをとることができる。
スパース,マルチスケール,セマンティック空間マップの作成結果を示す。
- 参考スコア(独自算出の注目度): 18.648772607057175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important challenge for autonomous agents such as robots is to maintain a
spatially and temporally consistent model of the world. It must be maintained
through occlusions, previously-unseen views, and long time horizons (e.g., loop
closure and re-identification). It is still an open question how to train such
a versatile neural representation without supervision. We start from the idea
that the training objective can be framed as a patch retrieval problem: given
an image patch in one view of a scene, we would like to retrieve (with high
precision and recall) all patches in other views that map to the same
real-world location. One drawback is that this objective does not promote
reusability of features: by being unique to a scene (achieving perfect
precision/recall), a representation will not be useful in the context of other
scenes. We find that it is possible to balance retrieval and reusability by
constructing the retrieval set carefully, leaving out patches that map to
far-away locations. Similarly, we can easily regulate the scale of the learned
features (e.g., points, objects, or rooms) by adjusting the spatial tolerance
for considering a retrieval to be positive. We optimize for (smooth) Average
Precision (AP), in a single unified ranking-based objective. This objective
also doubles as a criterion for choosing landmarks or keypoints, as patches
with high AP. We show results creating sparse, multi-scale, semantic spatial
maps composed of highly identifiable landmarks, with applications in landmark
retrieval, localization, semantic segmentation and instance segmentation.
- Abstract(参考訳): ロボットのような自律エージェントにとって重要な課題は、空間的かつ時間的に一貫した世界のモデルを維持することである。
隠蔽、以前は見えなかった視点、長い時間的地平線(ループ閉鎖や再同定など)によって維持されなければならない。
このような多彩なニューラルネットワーク表現を監督なしでトレーニングする方法はまだ公開されていない。
シーンの1つのビューにイメージパッチが与えられたら、同じ現実世界の場所にマップされた他のビューにあるすべてのパッチを(高い精度で)取得し、リコールしたいと思っています。
1つの欠点は、この目的が機能の再使用を促進しないことである。シーンに固有の(完全な精度/リコールを達成する)ことで、他のシーンのコンテキストにおいて表現は役に立たない。
検索セットを慎重に構築し、遠隔地へマップするパッチを除外することで、検索と再利用のバランスをとることができる。
同様に、学習した特徴(例えば、点、物、部屋)のスケールを、肯定的な検索を考えるために空間許容度を調整することで、容易に調整できる。
smooth(smooth)平均精度(ap)を単一のランキングベース目標に最適化する。
この目的はまた、高いAPのパッチとしてランドマークやキーポイントを選択するための基準として2倍になる。
ランドマーク検索,ローカライゼーション,セマンティックセグメンテーション,インスタンスセグメンテーションに応用した,高度に識別可能なランドマークからなるスパース・マルチスケール・セマンティック空間マップの作成結果を示す。
関連論文リスト
- Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - Breaking the Frame: Image Retrieval by Visual Overlap Prediction [53.17564423756082]
本稿では,隠蔽や複雑なシーンを効果的に扱う新しい視覚的位置認識手法,VOPを提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Map-free Visual Relocalization: Metric Pose Relative to a Single Image [21.28513803531557]
本研究では,シーンの1枚の写真のみを用いて,地図のない再ローカライズを提案し,即時でスケールした再ローカライズを実現する。
既存のデータセットは、大きなシーンや限られた変数に焦点を当てているため、マップのない再ローカライゼーションのベンチマークには適していない。
我々は,世界規模で収集された彫刻,壁画,噴水など,655箇所の小さな関心事のデータセットを構築した。
論文 参考訳(メタデータ) (2022-10-11T14:49:49Z) - Sparse Semantic Map-Based Monocular Localization in Traffic Scenes Using
Learned 2D-3D Point-Line Correspondences [29.419138863851526]
クエリー画像が与えられた場合、カメラのポーズが先行マップに対応すると見積もることが目的である。
既存のアプローチは、登録問題を解決するために、機能レベルでの高密度な点記述子に大きく依存している。
本稿では,よく設計されたディープニューラルネットワークを用いて2D-3D登録を行う,スパースセマンティックマップに基づく単眼位置推定法を提案する。
論文 参考訳(メタデータ) (2022-10-10T10:29:07Z) - Scale Normalized Image Pyramids with AutoFocus for Object Detection [75.71320993452372]
スケール正規化画像ピラミッド(SNIP)が生成され、人間の視覚と同様に、異なるスケールで固定されたサイズ範囲内のオブジェクトにのみ参加する。
本研究では,オブジェクトを含む可能性のある固定サイズのサブリージョンのみで動作する,効率的な空間サブサンプリング手法を提案する。
結果のアルゴリズムはAutoFocusと呼ばれ、SNIPを使用する場合の推論では2.5~5倍のスピードアップとなる。
論文 参考訳(メタデータ) (2021-02-10T18:57:53Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。