論文の概要: Learning Geocentric Object Pose in Oblique Monocular Images
- arxiv url: http://arxiv.org/abs/2007.00729v1
- Date: Wed, 1 Jul 2020 20:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:20:35.554099
- Title: Learning Geocentric Object Pose in Oblique Monocular Images
- Title(参考訳): 斜め単眼画像における地球中心オブジェクトの学習
- Authors: Gordon Christie, Rodrigo Rene Rai Munoz Abujder, Kevin Foster, Shea
Hagstrom, Gregory D. Hager, Myron Z. Brown
- Abstract要約: オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。
我々は,この課題に対処するために,ジオセントリックなポーズの符号化を開発し,この表現を高密度に計算するために深層ネットワークを訓練する。
これらの属性を利用して斜め画像を修正し、観測対象視差を除去し、局所化の精度を劇的に向上させ、非常に異なる斜めの視点から撮影された複数の画像の正確なアライメントを可能にする。
- 参考スコア(独自算出の注目度): 18.15647135620892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An object's geocentric pose, defined as the height above ground and
orientation with respect to gravity, is a powerful representation of real-world
structure for object detection, segmentation, and localization tasks using RGBD
images. For close-range vision tasks, height and orientation have been derived
directly from stereo-computed depth and more recently from monocular depth
predicted by deep networks. For long-range vision tasks such as Earth
observation, depth cannot be reliably estimated with monocular images. Inspired
by recent work in monocular height above ground prediction and optical flow
prediction from static images, we develop an encoding of geocentric pose to
address this challenge and train a deep network to compute the representation
densely, supervised by publicly available airborne lidar. We exploit these
attributes to rectify oblique images and remove observed object parallax to
dramatically improve the accuracy of localization and to enable accurate
alignment of multiple images taken from very different oblique viewpoints. We
demonstrate the value of our approach by extending two large-scale public
datasets for semantic segmentation in oblique satellite images. All of our data
and code are publicly available.
- Abstract(参考訳): オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。
近距離視覚タスクでは、高さと向きはステレオ計算された深さから直接、最近ではディープネットワークによって予測される単分子深度から直接導かれる。
地球観測などの長距離視覚タスクでは、深度を単眼画像で確実に推定することはできない。
この課題に対処するための静止画像からの光学的流れ予測と単色高での最近の研究から着想を得て,この課題に対処するジオセントリックなポーズの符号化を開発し,その表現を高密度に計算する深層ネットワークの訓練を行った。
これらの特徴を利用して斜視像を補正し,観測対象視差を除去し,局所化の精度を劇的に向上させ,異なる斜視視点から撮影された複数の画像の正確なアライメントを可能にする。
衛星画像におけるセマンティクスセグメンテーションのための2つの大規模公開データセットを拡張することにより,このアプローチの価値を実証する。
すべてのデータとコードは公開されています。
関連論文リスト
- Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。
単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。
Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文 参考訳(メタデータ) (2024-12-18T00:06:41Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - ${S}^{2}$Net: Accurate Panorama Depth Estimation on Spherical Surface [4.649656275858966]
単球面上の単分子パノラマ深度推定のためのエンドツーエンドのディープネットワークを提案する。
具体的には、等方形画像から抽出した特徴写像を一様分散格子でサンプリングした単位球面に投影する。
本研究では,機能マップをスキップ接続から解き放ち,グローバルコンテキストの獲得能力を高めるために,グローバルなクロスアテンションベースの融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-14T07:39:15Z) - Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - GeoFill: Reference-Based Image Inpainting of Scenes with Complex
Geometry [40.68659515139644]
参照誘導画像描画は、他の参照画像からのコンテンツを活用して画像画素を復元する。
我々は、単眼深度推定を利用して、カメラ間の相対的なポーズを予測し、その基準画像を異なる3次元再投影により目標に整列させる。
提案手法は,RealEstate10KとMannequinChallengeの両方のデータセットに対して,大規模なベースライン,複雑な幾何学,極端なカメラモーションによる最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T12:17:13Z) - Single View Geocentric Pose in the Wild [18.08385304935249]
本論文では,空中ライダー画像を用いたジオセントリックポーズの回帰学習モデルを提案する。
また,本手法を現実のアプリケーションに導入する上で,現実的な課題にも対処する。
論文 参考訳(メタデータ) (2021-05-18T01:55:15Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。