論文の概要: On Localizing a Camera from a Single Image
- arxiv url: http://arxiv.org/abs/2003.10664v1
- Date: Tue, 24 Mar 2020 05:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:51:29.178453
- Title: On Localizing a Camera from a Single Image
- Title(参考訳): 単一画像からのカメラのローカライズについて
- Authors: Pradipta Ghosh, Xiaochen Liu, Hang Qiu, Marcos A. M. Vieira, Gaurav S.
Sukhatme, and Ramesh Govindan
- Abstract要約: カメラが撮影した1枚の画像からカメラの位置を推定できることを示す。
人間の作業者による投影幾何学,ニューラルネットワーク,クラウドソースアノテーションの法的な組み合わせを用いて,テストデータセット内の画像の95%を12m以内の位置に配置できることを示す。
- 参考スコア(独自算出の注目度): 9.049593493956008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public cameras often have limited metadata describing their attributes. A key
missing attribute is the precise location of the camera, using which it is
possible to precisely pinpoint the location of events seen in the camera. In
this paper, we explore the following question: under what conditions is it
possible to estimate the location of a camera from a single image taken by the
camera? We show that, using a judicious combination of projective geometry,
neural networks, and crowd-sourced annotations from human workers, it is
possible to position 95% of the images in our test data set to within 12 m.
This performance is two orders of magnitude better than PoseNet, a
state-of-the-art neural network that, when trained on a large corpus of images
in an area, can estimate the pose of a single image. Finally, we show that the
camera's inferred position and intrinsic parameters can help design a number of
virtual sensors, all of which are reasonably accurate.
- Abstract(参考訳): パブリックカメラは属性を記述するメタデータが限られていることが多い。
キーが欠けている属性はカメラの正確な位置であり、カメラで見られるイベントの位置を正確に特定することができる。
本稿では,カメラが撮影した1枚の画像から,どの条件下でカメラの位置を推定できるのか?
人間の作業者による投影幾何学,ニューラルネットワーク,クラウドソースアノテーションの法的な組み合わせを用いて,テストデータセット内の画像の95%を12m以内の位置に配置できることを示す。
このパフォーマンスは、ある領域にある大きな画像のコーパスでトレーニングされた場合、単一の画像のポーズを推定できる最先端のニューラルネットワークであるPoseNetよりも2桁良い。
最後に、カメラの位置やパラメータを推定することで、さまざまな仮想センサーを設計できることを示します。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering [91.76893697171117]
そこで本研究では, 高精度かつ高品質な幾何復元と新規なビュー合成手法を提案する。
私たちのキーとなるアイデアは、低解像度のマルチビュービデオからのみ、放射界の重みをメタラーニングすることです。
新しいデータセットWildDynaCap(ワイルドダイナキャップ)は、密集したカメラドームと細いカメラリグの両方に収まる被写体を含んでいる。
論文 参考訳(メタデータ) (2024-03-27T17:59:54Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Camera Pose Auto-Encoders for Improving Pose Regression [6.700873164609009]
カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
論文 参考訳(メタデータ) (2022-07-12T13:47:36Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Can poachers find animals from public camera trap images? [14.61316451496861]
カメラトラップ位置のプライバシー維持のためのジオ・オブファシケーションの堅牢性について検討する。
単純な直観と一般に利用可能な衛星は、カメラを含む可能性のある領域を87%削減するために使用することができる。
論文 参考訳(メタデータ) (2021-06-21T16:31:47Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Multi-camera Torso Pose Estimation using Graph Neural Networks [3.7431113857875746]
人間の位置と方向を推定することは、サービスと補助ロボットにとって必須のスキルである。
本稿では,複数のカメラソースから取得した情報をマージするために,グラフニューラルネットワークを用いた提案を行った。
実験はアパートで3台のカメラで行われ、2つの異なるグラフニューラルネットワーク実装と第3のアーキテクチャをベンチマークした。
論文 参考訳(メタデータ) (2020-07-28T11:14:02Z) - Neural Geometric Parser for Single Image Camera Calibration [17.393543270903653]
そこで本研究では,人為的なシーンに対して,ニューラルネットワークによる一眼レフカメラキャリブレーションを提案する。
提案手法は意味的手法と幾何学的手法の両方を考慮し,精度を著しく向上させる。
実験の結果,既存の最先端カメラキャリブレーション技術に比べて,ニューラルネットワークの性能は著しく高いことがわかった。
論文 参考訳(メタデータ) (2020-07-23T08:29:00Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。