Fugu-MT 論文翻訳(概要): Learning Geocentric Object Pose in Oblique Monocular Images

論文の概要: Learning Geocentric Object Pose in Oblique Monocular Images

arxiv url: http://arxiv.org/abs/2007.00729v1
Date: Wed, 1 Jul 2020 20:06:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 23:20:35.554099
Title: Learning Geocentric Object Pose in Oblique Monocular Images
Title（参考訳）: 斜め単眼画像における地球中心オブジェクトの学習
Authors: Gordon Christie, Rodrigo Rene Rai Munoz Abujder, Kevin Foster, Shea Hagstrom, Gregory D. Hager, Myron Z. Brown
Abstract要約: オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。我々は,この課題に対処するために,ジオセントリックなポーズの符号化を開発し,この表現を高密度に計算するために深層ネットワークを訓練する。これらの属性を利用して斜め画像を修正し、観測対象視差を除去し、局所化の精度を劇的に向上させ、非常に異なる斜めの視点から撮影された複数の画像の正確なアライメントを可能にする。
参考スコア（独自算出の注目度）: 18.15647135620892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An object's geocentric pose, defined as the height above ground and orientation with respect to gravity, is a powerful representation of real-world structure for object detection, segmentation, and localization tasks using RGBD images. For close-range vision tasks, height and orientation have been derived directly from stereo-computed depth and more recently from monocular depth predicted by deep networks. For long-range vision tasks such as Earth observation, depth cannot be reliably estimated with monocular images. Inspired by recent work in monocular height above ground prediction and optical flow prediction from static images, we develop an encoding of geocentric pose to address this challenge and train a deep network to compute the representation densely, supervised by publicly available airborne lidar. We exploit these attributes to rectify oblique images and remove observed object parallax to dramatically improve the accuracy of localization and to enable accurate alignment of multiple images taken from very different oblique viewpoints. We demonstrate the value of our approach by extending two large-scale public datasets for semantic segmentation in oblique satellite images. All of our data and code are publicly available.
Abstract（参考訳）: オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。近距離視覚タスクでは、高さと向きはステレオ計算された深さから直接、最近ではディープネットワークによって予測される単分子深度から直接導かれる。地球観測などの長距離視覚タスクでは、深度を単眼画像で確実に推定することはできない。この課題に対処するための静止画像からの光学的流れ予測と単色高での最近の研究から着想を得て,この課題に対処するジオセントリックなポーズの符号化を開発し,その表現を高密度に計算する深層ネットワークの訓練を行った。これらの特徴を利用して斜視像を補正し,観測対象視差を除去し,局所化の精度を劇的に向上させ,異なる斜視視点から撮影された複数の画像の正確なアライメントを可能にする。衛星画像におけるセマンティクスセグメンテーションのための2つの大規模公開データセットを拡張することにより,このアプローチの価値を実証する。すべてのデータとコードは公開されています。

関連論文リスト

Dense-depth map guided deep Lidar-Visual Odometry with Sparse Point Clouds and Images [4.320220844287486]
オドメトリは、自律システムにとって、自己ローカライゼーションとナビゲーションにとって重要なタスクである。我々は,LiDARの点雲と画像を統合し,正確なポーズ推定を行う新しいLiDAR-Visual odometryフレームワークを提案する。提案手法は,最先端のビジュアルおよびLiDARオドメトリー法と比較して,類似あるいは優れた精度とロバスト性を実現する。
論文参考訳（メタデータ） (2025-07-21T10:58:10Z)
GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。既存の手法は、しばしば完全に教師付き学習に依存している。本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文参考訳（メタデータ） (2025-07-15T03:00:15Z)
Seurat: From Moving Points to Depth [66.65189052568209]
本研究では,2次元軌跡の空間的関係と時間的変化を調べ,相対的な深度を推定する手法を提案する。提案手法は,様々な領域にわたる時間的スムーズかつ高精度な深度予測を実現する。
論文参考訳（メタデータ） (2025-04-20T17:37:02Z)
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。 Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文参考訳（メタデータ） (2024-12-18T00:06:41Z)
Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文参考訳（メタデータ） (2024-08-17T04:55:03Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
${S}^{2}$Net: Accurate Panorama Depth Estimation on Spherical Surface [4.649656275858966]
単球面上の単分子パノラマ深度推定のためのエンドツーエンドのディープネットワークを提案する。具体的には、等方形画像から抽出した特徴写像を一様分散格子でサンプリングした単位球面に投影する。本研究では,機能マップをスキップ接続から解き放ち,グローバルコンテキストの獲得能力を高めるために,グローバルなクロスアテンションベースの融合モジュールを提案する。
論文参考訳（メタデータ） (2023-01-14T07:39:15Z)
Visual Attention-based Self-supervised Absolute Depth Estimation using Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。 VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。 KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2022-05-18T08:01:38Z)
Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文参考訳（メタデータ） (2022-03-26T20:10:38Z)
GeoFill: Reference-Based Image Inpainting of Scenes with Complex Geometry [40.68659515139644]
参照誘導画像描画は、他の参照画像からのコンテンツを活用して画像画素を復元する。我々は、単眼深度推定を利用して、カメラ間の相対的なポーズを予測し、その基準画像を異なる3次元再投影により目標に整列させる。提案手法は,RealEstate10KとMannequinChallengeの両方のデータセットに対して,大規模なベースライン,複雑な幾何学,極端なカメラモーションによる最先端性能を実現する。
論文参考訳（メタデータ） (2022-01-20T12:17:13Z)
Single View Geocentric Pose in the Wild [18.08385304935249]
本論文では,空中ライダー画像を用いたジオセントリックポーズの回帰学習モデルを提案する。また,本手法を現実のアプリケーションに導入する上で,現実的な課題にも対処する。
論文参考訳（メタデータ） (2021-05-18T01:55:15Z)
S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文参考訳（メタデータ） (2021-04-02T03:55:41Z)
Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。これらの深度マップは、異なるビューを粗く整列するために使用される。本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-03-27T21:28:54Z)
Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文参考訳（メタデータ） (2020-03-02T10:44:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。