論文の概要: SCENES: Subpixel Correspondence Estimation With Epipolar Supervision
- arxiv url: http://arxiv.org/abs/2401.10886v1
- Date: Fri, 19 Jan 2024 18:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 14:58:45.379890
- Title: SCENES: Subpixel Correspondence Estimation With Epipolar Supervision
- Title(参考訳): エピポーラ監視によるサブピクセル対応推定
- Authors: Dominik A. Kloepfer, Jo\~ao F. Henriques, Dylan Campbell
- Abstract要約: シーンの2つ以上のビューからポイント対応を抽出することは、基本的なコンピュータビジョンの問題である。
既存の局所的特徴マッチングアプローチは、大規模データセットの対応監視によって訓練され、テストセット上での高精度なマッチングを得る。
奥行きマップや点雲などの3次元構造を不要にすることで,この仮定を緩和する。
- 参考スコア(独自算出の注目度): 18.648772607057175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting point correspondences from two or more views of a scene is a
fundamental computer vision problem with particular importance for relative
camera pose estimation and structure-from-motion. Existing local feature
matching approaches, trained with correspondence supervision on large-scale
datasets, obtain highly-accurate matches on the test sets. However, they do not
generalise well to new datasets with different characteristics to those they
were trained on, unlike classic feature extractors. Instead, they require
finetuning, which assumes that ground-truth correspondences or ground-truth
camera poses and 3D structure are available. We relax this assumption by
removing the requirement of 3D structure, e.g., depth maps or point clouds, and
only require camera pose information, which can be obtained from odometry. We
do so by replacing correspondence losses with epipolar losses, which encourage
putative matches to lie on the associated epipolar line. While weaker than
correspondence supervision, we observe that this cue is sufficient for
finetuning existing models on new data. We then further relax the assumption of
known camera poses by using pose estimates in a novel bootstrapping approach.
We evaluate on highly challenging datasets, including an indoor drone dataset
and an outdoor smartphone camera dataset, and obtain state-of-the-art results
without strong supervision.
- Abstract(参考訳): シーンの2つ以上のビューからポイント対応を抽出することは、相対的なカメラポーズ推定と運動からの構造に特に重要である基本的なコンピュータビジョン問題である。
既存のローカル機能マッチングアプローチは、大規模なデータセットの対応監督でトレーニングされ、テストセットで高い精度の一致を得る。
しかし、古典的な特徴抽出器とは異なり、トレーニングされたデータと異なる特徴を持つ新しいデータセットにうまく一般化していない。
代わりに微調整が必要で、地平線対応や地平線カメラのポーズや3D構造が利用できると仮定する。
この仮定を緩和するために、深度マップや点雲といった3d構造の必要性を取り除き、オドメトリーから得られるカメラのポーズ情報のみを必要とする。
対応する損失をエピポーラ損失に置き換えることで、関連するエピポーララインに一致することを奨励します。
対応の監督よりも弱いが、この手がかりは既存のモデルを新しいデータで微調整するのに十分である。
次に,新たなブートストラップアプローチにおいて,ポーズ推定を用いて,既知のカメラポーズの仮定をさらに緩和する。
室内ドローンデータセットと屋外スマートフォンカメラデータセットを含む高度に困難なデータセットを評価し、強力な監視なしに最先端の結果を得る。
関連論文リスト
- FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - ContraNeRF: 3D-Aware Generative Model via Contrastive Learning with
Unsupervised Implicit Pose Embedding [40.36882490080341]
暗黙のポーズ埋め込みを用いたコントラスト学習による新しい3D認識型GAN最適化手法を提案する。
判別器は、与えられた画像から高次元の暗黙のポーズ埋め込みを推定し、ポーズ埋め込みについて対照的な学習を行う。
提案手法は、カメラのポーズを検索したり推定したりしないため、標準カメラのポーズが未定義であるデータセットに使用できる。
論文 参考訳(メタデータ) (2023-04-27T07:53:13Z) - Long-term Visual Localization with Mobile Sensors [30.839849072256435]
そこで本稿では,GPS,コンパス,重力センサなどの携帯端末にセンサを追加することで,この課題を解決することを提案する。
また,最初のポーズで直接2D-3Dマッチングネットワークを考案し,効率的に2D-3D対応を確立できる。
提案手法といくつかの最先端ベースラインをベンチマークし,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-04-16T04:35:10Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Lidar-Monocular Surface Reconstruction Using Line Segments [5.542669744873386]
LIDARスキャンと画像データの両方で検出される一般的な幾何学的特徴を利用して、2つのセンサからのデータを高レベル空間で処理することを提案する。
提案手法は, 高精度な地中真理推定を必要とせず, 最先端のLIDARサーベイに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-06T19:49:53Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Predicting Camera Viewpoint Improves Cross-dataset Generalization for 3D
Human Pose Estimation [32.6329300863371]
特定のデータセットに存在する多様性とバイアスと、それがデータセット間の一般化に与える影響について検討する。
我々は,視点を協調的に予測し,体系的にデータ間の一般化を著しく改善したモデルを見いだした。
論文 参考訳(メタデータ) (2020-04-07T06:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。