論文の概要: Height estimation from single aerial images using a deep ordinal
regression network
- arxiv url: http://arxiv.org/abs/2006.02801v1
- Date: Thu, 4 Jun 2020 12:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 10:08:54.417366
- Title: Height estimation from single aerial images using a deep ordinal
regression network
- Title(参考訳): deep ordinal regression network を用いた単眼画像からの身長推定
- Authors: Xiang Li, Mingyang Wang, Yi Fang
- Abstract要約: 単体画像からの高度推定の曖昧で未解決な問題に対処する。
深層学習、特に深層畳み込みニューラルネットワーク(CNN)の成功により、いくつかの研究は、単一の空中画像から高さ情報を推定することを提案した。
本稿では,高さ値を間隔増加間隔に分割し,回帰問題を順序回帰問題に変換することを提案する。
- 参考スコア(独自算出の注目度): 12.991266182762597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the 3D geometric structure of the Earth's surface has been an
active research topic in photogrammetry and remote sensing community for
decades, serving as an essential building block for various applications such
as 3D digital city modeling, change detection, and city management. Previous
researches have extensively studied the problem of height estimation from
aerial images based on stereo or multi-view image matching. These methods
require two or more images from different perspectives to reconstruct 3D
coordinates with camera information provided. In this paper, we deal with the
ambiguous and unsolved problem of height estimation from a single aerial image.
Driven by the great success of deep learning, especially deep convolution
neural networks (CNNs), some researches have proposed to estimate height
information from a single aerial image by training a deep CNN model with
large-scale annotated datasets. These methods treat height estimation as a
regression problem and directly use an encoder-decoder network to regress the
height values. In this paper, we proposed to divide height values into
spacing-increasing intervals and transform the regression problem into an
ordinal regression problem, using an ordinal loss for network training. To
enable multi-scale feature extraction, we further incorporate an Atrous Spatial
Pyramid Pooling (ASPP) module to extract features from multiple dilated
convolution layers. After that, a post-processing technique is designed to
transform the predicted height map of each patch into a seamless height map.
Finally, we conduct extensive experiments on ISPRS Vaihingen and Potsdam
datasets. Experimental results demonstrate significantly better performance of
our method compared to the state-of-the-art methods.
- Abstract(参考訳): 地球表面の3d幾何学的構造を理解することは、写真測量とリモートセンシングのコミュニティで何十年も前から活発な研究テーマであり、3dデジタル都市モデリング、変化検出、都市管理といった様々な応用において必須の構成要素となっている。
これまでの研究では、ステレオ画像やマルチビュー画像マッチングに基づく空中画像からの高さ推定の問題が広く研究されてきた。
これらの方法は3D座標をカメラ情報で再構成するために異なる視点から2つ以上の画像を必要とする。
本稿では,1つの空中画像から高度推定を行う不明瞭で未解決な問題に対処する。
ディープラーニング、特に深層畳み込みニューラルネットワーク(CNN)の大成功によって、大規模な注釈付きデータセットで深部CNNモデルをトレーニングすることにより、単一の空中画像から高さ情報を推定する研究が提案されている。
これらの手法は、高さ推定を回帰問題として扱い、エンコーダ・デコーダネットワークを直接使用して高さ値を回帰する。
本稿では,ネットワークトレーニングにおける順序損失を用いて,高さ値を間隔増加区間に分割し,回帰問題を順序回帰問題に変換する手法を提案する。
マルチスケールな特徴抽出を実現するため,複数の拡張畳み込み層から特徴を抽出するために,Atrous Space Pyramid Pooling (ASPP)モジュールを組み込んだ。
その後、各パッチの予測された高さマップをシームレスな高さマップに変換するポストプロセッシング手法が考案される。
最後に,ISPRS Vaihingen と Potsdam のデータセットについて広範な実験を行った。
実験の結果,最先端手法と比較して,提案手法の性能は有意に向上した。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images [10.716933766055755]
本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
論文 参考訳(メタデータ) (2023-10-12T02:49:00Z) - Multi-tiling Neural Radiance Field (NeRF) -- Geometric Assessment on Large-scale Aerial Datasets [5.391764618878545]
本稿では,大規模航空データセット上でのNeRF(Neural Radiance Fields)のスケールアップを目指す。
具体的には、メモリ消費を減らすため、位置特定サンプリング技術とマルチカメラタイリング(MCT)戦略を導入する。
提案手法を代表的手法であるMip-NeRFに実装し,その幾何性能を3光度MVSパイプラインと比較する。
論文 参考訳(メタデータ) (2023-10-01T00:21:01Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - Large-scale Building Height Retrieval from Single SAR Imagery based on
Bounding Box Regression Networks [21.788338971571736]
合成開口レーダ(SAR)画像からの建物の高さの検索は,都市部において非常に重要である。
本稿では,1つのTerraSAR-Xスポットライトやストリップマップ画像から大規模都市部におけるビルの高さ検索の問題に対処する。
論文 参考訳(メタデータ) (2021-11-18T00:39:48Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction [12.728154351588053]
マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
高分解能深度を実現するために粗粒度深度推論戦略を導入する。
論文 参考訳(メタデータ) (2020-11-25T13:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。