論文の概要: Leveraging Image Matching Toward End-to-End Relative Camera Pose Regression
- arxiv url: http://arxiv.org/abs/2211.14950v2
- Date: Tue, 16 Apr 2024 12:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 03:00:15.019042
- Title: Leveraging Image Matching Toward End-to-End Relative Camera Pose Regression
- Title(参考訳): エンド・ツー・エンド・リレーショナル・カメラ・ポッド・レグレッションに向けた画像マッチングの活用
- Authors: Fadi Khatib, Yuval Margalit, Meirav Galun, Ronen Basri,
- Abstract要約: 本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。
従来のパイプラインにインスパイアされた本手法では,画像マッチング(IM)を,相対的ポーズ回帰のための事前学習タスクとして活用する。
提案手法をいくつかのデータセット上で評価し,従来のエンドツーエンド手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 13.233301155616616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a generalizable, end-to-end deep learning-based method for relative pose regression between two images. Given two images of the same scene captured from different viewpoints, our method predicts the relative rotation and translation (including direction and scale) between the two respective cameras. Inspired by the classical pipeline, our method leverages Image Matching (IM) as a pre-trained task for relative pose regression. Specifically, we use LoFTR, an architecture that utilizes an attention-based network pre-trained on Scannet, to extract semi-dense feature maps, which are then warped and fed into a pose regression network. Notably, we use a loss function that utilizes separate terms to account for the translation direction and scale. We believe such a separation is important because translation direction is determined by point correspondences while the scale is inferred from prior on shape sizes. Our ablations further support this choice. We evaluate our method on several datasets and show that it outperforms previous end-to-end methods. The method also generalizes well to unseen datasets.
- Abstract(参考訳): 本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。
異なる視点から撮影した同じシーンの2つの画像から、それぞれのカメラ間の相対的な回転と変換(方向とスケールを含む)を予測する。
従来のパイプラインにインスパイアされた本手法では,画像マッチング(IM)を,相対的ポーズ回帰のための事前学習タスクとして活用する。
具体的には,Scannet 上で事前学習したアテンションベースネットワークを利用したアーキテクチャである LoFTR を用いて,半Dense 特徴マップを抽出し,それをワープしてポーズ回帰ネットワークに入力する。
特に,翻訳方向とスケールを別用語で表すロス関数を用いる。
このような分離が重要であると我々は信じている。なぜなら、変換方向は点対応によって決定され、スケールは以前の形状から推定されるからである。
われわれはこの選択をさらに支持している。
提案手法をいくつかのデータセット上で評価し,従来のエンドツーエンド手法よりも優れていることを示す。
この手法はまた、目に見えないデータセットによく一般化する。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation [30.710296843150832]
画像間の相対的なカメラのポーズを推定することは、コンピュータビジョンにおいて中心的な問題となっている。
私たちのアプローチは、正確かつ堅牢な結果をもたらします。
包括的解析は設計選択をサポートし,提案手法が様々な特徴抽出器や対応推定器に柔軟に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:59:51Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - Self-Supervised Learning of Image Scale and Orientation [35.94215211409985]
本研究では,興味のある画像領域に対して特徴的ポーズ,すなわちスケールと向きを割り当てる学習の課題について検討する。
モデルが直接学習する明示的なポーズアノテーションを持つ画像領域の大規模な集合を得ることは困難である。
ヒストグラムアライメント技術を用いた自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-15T02:43:39Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - RELMOBNET: A Robust Two-Stage End-To-End Training Approach For
MOBILENETV3 Based Relative Camera Pose Estimation [0.6193838300896449]
相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を担っている。
本稿では,MobileNetV3-LargeをベースとしたSiameseネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-25T17:27:26Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - Paying Attention to Activation Maps in Camera Pose Regression [4.232614032390374]
カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
畳み込みアクティベーションマップをシーケンシャル入力として使用するポーズ回帰のための注意に基づくアプローチを提案する。
提案手法は,現代のポーズレグレッサー方式に好適に比較し,複数のベンチマークにまたがる最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-03-21T20:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。