論文の概要: Soft Expectation and Deep Maximization for Image Feature Detection
- arxiv url: http://arxiv.org/abs/2104.10291v1
- Date: Wed, 21 Apr 2021 00:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 00:37:13.548343
- Title: Soft Expectation and Deep Maximization for Image Feature Detection
- Title(参考訳): 画像特徴検出のためのソフト期待と深部最大化
- Authors: Alexander Mai, Allen Yang, Dominique E. Meyer
- Abstract要約: 質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Central to the application of many multi-view geometry algorithms is the
extraction of matching points between multiple viewpoints, enabling classical
tasks such as camera pose estimation and 3D reconstruction. Over the decades,
many approaches that characterize these points have been proposed based on
hand-tuned appearance models and more recently data-driven learning methods. We
propose SEDM, an iterative semi-supervised learning process that flips the
question and first looks for repeatable 3D points, then trains a detector to
localize them in image space. Our technique poses the problem as one of
expectation maximization (EM), where the likelihood of the detector locating
the 3D points is the objective function to be maximized. We utilize the
geometry of the scene to refine the estimates of the location of these 3D
points and produce a new pseudo ground truth during the expectation step, then
train a detector to predict this pseudo ground truth in the maximization step.
We apply our detector to standard benchmarks in visual localization, sparse 3D
reconstruction, and mean matching accuracy. Our results show that this new
model trained using SEDM is able to better localize the underlying 3D points in
a scene, improving mean SfM quality by $-0.15\pm0.11$ mean reprojection error
when compared to SuperPoint or $-0.38\pm0.23$ when compared to R2D2.
- Abstract(参考訳): 多くの多視点幾何アルゴリズムの応用の中心は、複数の視点間のマッチング点の抽出であり、カメラポーズ推定や3D再構成のような古典的なタスクを可能にする。
これらの点を特徴付ける多くのアプローチが、ハンドチューニングされた外観モデルとより最近のデータ駆動学習法に基づいて提案されている。
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
本手法は,3次元点を位置決めする検出器の可能性が最大化の目的関数である予測最大化(EM)の1つである。
シーンの幾何学を用いて,これらの3次元点の位置推定を洗練し,期待ステップ中に新たな擬似基底真理を生成し,その擬似基底真理を最大化ステップで予測するために検出器を訓練する。
我々は,視覚的局所化,スパース3次元再構成,平均マッチング精度の標準ベンチマークに検出器を適用した。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内に存在する3dポイントのローカライズが向上し,スーパーポイントと比較して平均sfm品質が-0.15\pm0.11$,r2d2と比較して-0.38\pm0.23$であった。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - Learning to Produce Semi-dense Correspondences for Visual Localization [11.415451542216559]
本研究は,夜間シナリオ,悪天候,季節変化などの要求条件下で視覚的局所化を行うことの課題に対処する。
本稿では,高密度なキーポイントマッチングに基づいて,信頼性の高い半高密度2D-3Dマッチングポイントを抽出する手法を提案する。
ネットワークは幾何学的および視覚的な手がかりを用いて、観測されたキーポイントから観測されていないキーポイントの3D座標を効果的に推測する。
論文 参考訳(メタデータ) (2024-02-13T10:40:10Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization [44.05930316729542]
本稿では,3次元点雲の大規模可視化手法EP2P-Locを提案する。
画像中の見えない3D点を除去する簡単なアルゴリズムを提案する。
このタスクで初めて、エンドツーエンドのトレーニングに差別化可能なツールを使用します。
論文 参考訳(メタデータ) (2023-09-14T07:06:36Z) - LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals [9.201550006194994]
学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-03-22T17:46:27Z) - Improving Feature-based Visual Localization by Geometry-Aided Matching [21.1967752160412]
外観情報と幾何学的文脈の両方を用いて2D-3D特徴マッチングを改善する新しい2D-3Dマッチング手法であるGeometry-Aided Matching (GAM)を導入する。
GAMは高精度を維持しながら2D-3Dマッチのリコールを大幅に強化することができる。
提案手法は,複数の視覚的ローカライゼーションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-11-16T07:02:12Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。