論文の概要: HTC-DC Net: Monocular Height Estimation from Single Remote Sensing
Images
- arxiv url: http://arxiv.org/abs/2309.16486v1
- Date: Thu, 28 Sep 2023 14:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:56:35.093642
- Title: HTC-DC Net: Monocular Height Estimation from Single Remote Sensing
Images
- Title(参考訳): htc-dc net:単一リモートセンシング画像からの単眼高さ推定
- Authors: Sining Chen, Yilei Shi, Zhitong Xiong, Xiao Xiang Zhu
- Abstract要約: 光画像からモノクル高さを推定する手法を提案する。
不正な問題として、単分子の高さ推定は、表現の強化のためによく設計されたネットワークを必要とする。
分類-回帰パラダイムに従ってHTC-DCNetを提案し,主な貢献としてヘッドテールカット(HTC)と分散ベース制約(DC)を提案する。
- 参考スコア(独自算出の注目度): 24.65766848068617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D geo-information is of great significance for understanding the living
environment; however, 3D perception from remote sensing data, especially on a
large scale, is restricted. To tackle this problem, we propose a method for
monocular height estimation from optical imagery, which is currently one of the
richest sources of remote sensing data. As an ill-posed problem, monocular
height estimation requires well-designed networks for enhanced representations
to improve performance. Moreover, the distribution of height values is
long-tailed with the low-height pixels, e.g., the background, as the head, and
thus trained networks are usually biased and tend to underestimate building
heights. To solve the problems, instead of formalizing the problem as a
regression task, we propose HTC-DC Net following the classification-regression
paradigm, with the head-tail cut (HTC) and the distribution-based constraints
(DCs) as the main contributions. HTC-DC Net is composed of the backbone network
as the feature extractor, the HTC-AdaBins module, and the hybrid regression
process. The HTC-AdaBins module serves as the classification phase to determine
bins adaptive to each input image. It is equipped with a vision transformer
encoder to incorporate local context with holistic information and involves an
HTC to address the long-tailed problem in monocular height estimation for
balancing the performances of foreground and background pixels. The hybrid
regression process does the regression via the smoothing of bins from the
classification phase, which is trained via DCs. The proposed network is tested
on three datasets of different resolutions, namely ISPRS Vaihingen (0.09 m),
DFC19 (1.3 m) and GBH (3 m). Experimental results show the superiority of the
proposed network over existing methods by large margins. Extensive ablation
studies demonstrate the effectiveness of each design component.
- Abstract(参考訳): 3次元地理情報は生活環境を理解する上で非常に重要であるが、特に大規模なリモートセンシングデータからの3次元知覚は制限されている。
そこで,本稿では,現在リモートセンシングデータの最もリッチな源の一つである光学画像からの単眼高さ推定手法を提案する。
不適切な問題として、単眼の高さ推定は、性能を改善するために拡張表現のためによく設計されたネットワークを必要とする。
さらに、高さ値の分布は、例えば、背景をヘッドとして、低重画素と長重なっており、訓練されたネットワークは通常偏りがあり、建物の高さを過小評価する傾向がある。
そこで本研究では,この問題を回帰タスクとして定式化するのではなく,分類回帰パラダイムに従ってhtc-dc netを提案し,head-tail cut (htc) とdistribution-based constraints (dcs) を主な貢献とする。
HTC-DC Netは、機能抽出器としてバックボーンネットワーク、HTC-AdaBinsモジュール、ハイブリッド回帰プロセスで構成されている。
HTC-AdaBinsモジュールは、各入力画像に対応するビンを決定するための分類フェーズとして機能する。
視覚変換器エンコーダを備え、局所的なコンテキストを全体情報に組み込むとともに、HTCが前景と背景画素のパフォーマンスのバランスをとるためのモノクロ高さ推定における長い尾の問題に対処する。
ハイブリッド回帰プロセスは、DCを介して訓練された分類段階からのビンの平滑化を通じて回帰を行う。
提案するネットワークはisprs vaihingen (0.09 m)、dfc19 (1.3 m)、gbh (3 m)の3つの異なる解像度のデータセットでテストされている。
実験の結果,提案手法は既存手法よりも大きなマージンで優れていることがわかった。
広範なアブレーション研究は、各設計要素の有効性を示す。
関連論文リスト
- PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images [10.716933766055755]
本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
論文 参考訳(メタデータ) (2023-10-12T02:49:00Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Instant Multi-View Head Capture through Learnable Registration [62.70443641907766]
3次元頭部のデータセットを密接なセマンティック通信でキャプチャする既存の手法は遅い。
キャリブレーションされたマルチビュー画像から3Dヘッドを直接推定するためにTEMPEHを導入する。
1つの頭部の予測には0.3秒かかるが、中央値の復元誤差は0.26mmで、現在の最先端よりも64%低い。
論文 参考訳(メタデータ) (2023-06-12T21:45:18Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Height estimation from single aerial images using a deep ordinal
regression network [12.991266182762597]
単体画像からの高度推定の曖昧で未解決な問題に対処する。
深層学習、特に深層畳み込みニューラルネットワーク(CNN)の成功により、いくつかの研究は、単一の空中画像から高さ情報を推定することを提案した。
本稿では,高さ値を間隔増加間隔に分割し,回帰問題を順序回帰問題に変換することを提案する。
論文 参考訳(メタデータ) (2020-06-04T12:03:51Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。