論文の概要: GRelPose: Generalizable End-to-End Relative Camera Pose Regression
- arxiv url: http://arxiv.org/abs/2211.14950v1
- Date: Sun, 27 Nov 2022 22:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:30:00.911211
- Title: GRelPose: Generalizable End-to-End Relative Camera Pose Regression
- Title(参考訳): GRelPose: 汎用的なエンドツーエンドの相対カメラ
- Authors: Fadi Khatib, Yuval Margalit, Meirav Galun, Ronen Basri
- Abstract要約: 同じシーンの2つの画像が与えられた場合、このアルゴリズムは2つのカメラ間の相対回転と変換を予測する。
提案手法では,事前学習したLoFTRネットワークを用いて,各入力画像の粗い特徴のグリッドを抽出するネットワークアーキテクチャを提案する。
その後、2つの画像の対応する特徴を関連付け、最終的に畳み込みネットワークを用いて各カメラ間の相対回転と変換を復元する。
- 参考スコア(独自算出の注目度): 17.062045616622868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a generalizable, end-to-end deep learning-based method
for relative pose regression between two images. Given two images of the same
scene captured from different viewpoints, our algorithm predicts the relative
rotation and translation between the two respective cameras. Despite recent
progress in the field, current deep-based methods exhibit only limited
generalization to scenes not seen in training. Our approach introduces a
network architecture that extracts a grid of coarse features for each input
image using the pre-trained LoFTR network. It subsequently relates
corresponding features in the two images, and finally uses a convolutional
network to recover the relative rotation and translation between the respective
cameras. Our experiments indicate that the proposed architecture can generalize
to novel scenes, obtaining higher accuracy than existing deep-learning-based
methods in various settings and datasets, in particular with limited training
data.
- Abstract(参考訳): 本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。
異なる視点から撮影した同一シーンの2つの画像から、本アルゴリズムは2つのカメラ間の相対回転と変換を予測する。
この分野の最近の進歩にもかかわらず、現在の深層ベース手法は訓練中に見えないシーンへの限定的な一般化しか示していない。
本手法では,事前学習したLoFTRネットワークを用いて,入力画像毎に粗い特徴のグリッドを抽出するネットワークアーキテクチャを提案する。
その後、2つの画像の対応する特徴を関連付け、最終的に畳み込みネットワークを用いて各カメラ間の相対回転と変換を復元する。
提案手法は,様々な設定やデータセット,特に限られたトレーニングデータにおいて,既存のディープラーニング手法よりも精度が向上し,新たな場面に一般化できることを示す。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Neural Geometric Parser for Single Image Camera Calibration [17.393543270903653]
そこで本研究では,人為的なシーンに対して,ニューラルネットワークによる一眼レフカメラキャリブレーションを提案する。
提案手法は意味的手法と幾何学的手法の両方を考慮し,精度を著しく向上させる。
実験の結果,既存の最先端カメラキャリブレーション技術に比べて,ニューラルネットワークの性能は著しく高いことがわかった。
論文 参考訳(メタデータ) (2020-07-23T08:29:00Z) - Adversarial Transfer of Pose Estimation Regression [11.117357750374035]
本研究では,シーン不変の画像表現を学習するための深層適応ネットワークを開発し,モデル転送のための表現を生成する。
我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。
論文 参考訳(メタデータ) (2020-06-20T21:16:37Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。