論文の概要: Graph Attention Network for Camera Relocalization on Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2209.15056v1
- Date: Thu, 29 Sep 2022 18:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:03:38.353653
- Title: Graph Attention Network for Camera Relocalization on Dynamic Scenes
- Title(参考訳): ダイナミックシーンにおけるカメラ再配置のためのグラフ注意ネットワーク
- Authors: Mohamed Amine Ouali, Mohamed Bouguessa, Riadh Ksantini
- Abstract要約: 動的環境における画像カメラの位置を推定するために,シーントライアングルメッシュ表現を学習するためのグラフアテンションネットワークに基づくアプローチを考案する。
室内カメラの動的再局在化のためのRIO10ベンチマークにおいて,最先端手法のカメラポーズ精度を0.358ドルから0.506ドルに改善した。
- 参考スコア(独自算出の注目度): 1.0398909602421018
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We devise a graph attention network-based approach for learning a scene
triangle mesh representation in order to estimate an image camera position in a
dynamic environment. Previous approaches built a scene-dependent model that
explicitly or implicitly embeds the structure of the scene. They use
convolution neural networks or decision trees to establish 2D/3D-3D
correspondences. Such a mapping overfits the target scene and does not
generalize well to dynamic changes in the environment. Our work introduces a
novel approach to solve the camera relocalization problem by using the
available triangle mesh. Our 3D-3D matching framework consists of three blocks:
(1) a graph neural network to compute the embedding of mesh vertices, (2) a
convolution neural network to compute the embedding of grid cells defined on
the RGB-D image, and (3) a neural network model to establish the correspondence
between the two embeddings. These three components are trained end-to-end. To
predict the final pose, we run the RANSAC algorithm to generate camera pose
hypotheses, and we refine the prediction using the point-cloud representation.
Our approach significantly improves the camera pose accuracy of the
state-of-the-art method from $0.358$ to $0.506$ on the RIO10 benchmark for
dynamic indoor camera relocalization.
- Abstract(参考訳): 動的環境における画像カメラの位置を推定するために,シーントライアングルメッシュ表現を学習するためのグラフアテンションネットワークに基づくアプローチを考案する。
以前のアプローチでは、シーンの構造を明示的にあるいは暗黙的に埋め込むシーン依存モデルを構築していた。
畳み込みニューラルネットワークや決定木を用いて、2D/3D-3D対応を確立する。
このようなマッピングはターゲットのシーンに適合し、環境の動的変化に対してうまく一般化しない。
本研究は,トライアングルメッシュを用いてカメラ再配置問題を解決する新しい手法を提案する。
3d-3dマッチングフレームワークは,(1)メッシュ頂点の埋め込みを計算するグラフニューラルネットワーク,(2)rgb-d画像に定義されたグリッドセルの埋め込みを計算する畳み込みニューラルネットワーク,(3)2つの埋め込み間の対応を確立するニューラルネットワークモデル,の3つのブロックで構成される。
これら3つのコンポーネントはエンドツーエンドでトレーニングされる。
最終的なポーズを予測するため、RANSACアルゴリズムを用いてカメラのポーズ仮説を生成し、ポイントクラウド表現を用いて予測を洗練する。
本手法は, rio10ベンチマークによる動的屋内カメラ再配置の精度を0.358$から0.506$に大幅に向上させる。
関連論文リスト
- Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural
Calibration [99.44264155894376]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性変換を推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Improving 3D Pose Estimation for Sign Language [38.20064386142944]
この研究は、単一の画像における3次元人間のポーズ復元に対処する。
本稿では,フォワード・キネマティクス(FK)とニューラルネットワークを組み合わせた3次元ポーズの高速かつ有効な予測手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T13:05:10Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - S3E-GNN: Sparse Spatial Scene Embedding with Graph Neural Networks for
Camera Relocalization [11.512647893596029]
本稿では,グラフニューラルネットワークを用いたスパース空間シーン埋め込み(S3E-GNN)という学習手法を提案する。
符号化モジュールでは、訓練されたS3EネットワークがRGB画像を埋め込みコードにエンコードし、空間的および意味的な埋め込みコードを暗黙的に表現する。
SLAMシステムから得られた埋め込み符号と関連するポーズにより、各画像は、ポーズグラフ内のグラフノードとして表現される。
GNNクエリモジュールでは、ポーズグラフが変換され、カメラ再ローカライゼーションのための埋め込み集約参照グラフを形成する。
論文 参考訳(メタデータ) (2022-05-12T03:21:45Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Robust Neural Routing Through Space Partitions for Camera Relocalization
in Dynamic Indoor Environments [39.99342226556908]
カメラを既知の屋内環境にローカライズすることは、シーンマッピング、ロボットナビゲーション、arなどの重要なビルディングブロックである。
最近の進歩は、2d/3dカメラ空間と3dワールド空間の座標間の2d/3d-3d対応を最適化することでカメラのポーズを推定する。
本稿では,2つの世界,深層学習と決定木アプローチを橋渡しする,外来対応ニューラルツリーを提案する。
論文 参考訳(メタデータ) (2020-12-08T21:20:54Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。