論文の概要: Learning Geocentric Object Pose in Oblique Monocular Images
- arxiv url: http://arxiv.org/abs/2007.00729v1
- Date: Wed, 1 Jul 2020 20:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:20:35.554099
- Title: Learning Geocentric Object Pose in Oblique Monocular Images
- Title(参考訳): 斜め単眼画像における地球中心オブジェクトの学習
- Authors: Gordon Christie, Rodrigo Rene Rai Munoz Abujder, Kevin Foster, Shea
Hagstrom, Gregory D. Hager, Myron Z. Brown
- Abstract要約: オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。
我々は,この課題に対処するために,ジオセントリックなポーズの符号化を開発し,この表現を高密度に計算するために深層ネットワークを訓練する。
これらの属性を利用して斜め画像を修正し、観測対象視差を除去し、局所化の精度を劇的に向上させ、非常に異なる斜めの視点から撮影された複数の画像の正確なアライメントを可能にする。
- 参考スコア(独自算出の注目度): 18.15647135620892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An object's geocentric pose, defined as the height above ground and
orientation with respect to gravity, is a powerful representation of real-world
structure for object detection, segmentation, and localization tasks using RGBD
images. For close-range vision tasks, height and orientation have been derived
directly from stereo-computed depth and more recently from monocular depth
predicted by deep networks. For long-range vision tasks such as Earth
observation, depth cannot be reliably estimated with monocular images. Inspired
by recent work in monocular height above ground prediction and optical flow
prediction from static images, we develop an encoding of geocentric pose to
address this challenge and train a deep network to compute the representation
densely, supervised by publicly available airborne lidar. We exploit these
attributes to rectify oblique images and remove observed object parallax to
dramatically improve the accuracy of localization and to enable accurate
alignment of multiple images taken from very different oblique viewpoints. We
demonstrate the value of our approach by extending two large-scale public
datasets for semantic segmentation in oblique satellite images. All of our data
and code are publicly available.
- Abstract(参考訳): オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。
近距離視覚タスクでは、高さと向きはステレオ計算された深さから直接、最近ではディープネットワークによって予測される単分子深度から直接導かれる。
地球観測などの長距離視覚タスクでは、深度を単眼画像で確実に推定することはできない。
この課題に対処するための静止画像からの光学的流れ予測と単色高での最近の研究から着想を得て,この課題に対処するジオセントリックなポーズの符号化を開発し,その表現を高密度に計算する深層ネットワークの訓練を行った。
これらの特徴を利用して斜視像を補正し,観測対象視差を除去し,局所化の精度を劇的に向上させ,異なる斜視視点から撮影された複数の画像の正確なアライメントを可能にする。
衛星画像におけるセマンティクスセグメンテーションのための2つの大規模公開データセットを拡張することにより,このアプローチの価値を実証する。
すべてのデータとコードは公開されています。
関連論文リスト
- One scalar is all you need -- absolute depth estimation using monocular
self-supervision [59.45414406974091]
自己教師付き単眼深度推定器は、画像のみを使用し、地中深度データがない新しいシーンで訓練または微調整することができる。
これらの推定器は、深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本稿では,地中深度で収集した既存のソースデータセットから,自己監督を用いて訓練した深度推定器へ深度スケールを転送する手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T07:07:34Z) - ${S}^{2}$Net: Accurate Panorama Depth Estimation on Spherical Surface [4.649656275858966]
単球面上の単分子パノラマ深度推定のためのエンドツーエンドのディープネットワークを提案する。
具体的には、等方形画像から抽出した特徴写像を一様分散格子でサンプリングした単位球面に投影する。
本研究では,機能マップをスキップ接続から解き放ち,グローバルコンテキストの獲得能力を高めるために,グローバルなクロスアテンションベースの融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-14T07:39:15Z) - Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - GeoFill: Reference-Based Image Inpainting of Scenes with Complex
Geometry [40.68659515139644]
参照誘導画像描画は、他の参照画像からのコンテンツを活用して画像画素を復元する。
我々は、単眼深度推定を利用して、カメラ間の相対的なポーズを予測し、その基準画像を異なる3次元再投影により目標に整列させる。
提案手法は,RealEstate10KとMannequinChallengeの両方のデータセットに対して,大規模なベースライン,複雑な幾何学,極端なカメラモーションによる最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T12:17:13Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D
Object Detection [83.57300674285133]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Single View Geocentric Pose in the Wild [18.08385304935249]
本論文では,空中ライダー画像を用いたジオセントリックポーズの回帰学習モデルを提案する。
また,本手法を現実のアプリケーションに導入する上で,現実的な課題にも対処する。
論文 参考訳(メタデータ) (2021-05-18T01:55:15Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。