論文の概要: HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images
- arxiv url: http://arxiv.org/abs/2310.07995v1
- Date: Thu, 12 Oct 2023 02:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:11:44.323889
- Title: HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images
- Title(参考訳): heightformer: 空中画像を用いた単眼高度推定のための多レベル相互作用と画像適応分類回帰ネットワーク
- Authors: Zhan Chen and Yidan Zhang and Xiyu Qi and Yongqiang Mao and Xin Zhou
and Lulu Niu and Hui Wu and Lei Wang and Yunping Ge
- Abstract要約: 本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
- 参考スコア(独自算出の注目度): 10.716933766055755
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Height estimation has long been a pivotal topic within measurement and remote
sensing disciplines, proving critical for endeavours such as 3D urban
modelling, MR and autonomous driving. Traditional methods utilise stereo
matching or multisensor fusion, both well-established techniques that typically
necessitate multiple images from varying perspectives and adjunct sensors like
SAR, leading to substantial deployment costs. Single image height estimation
has emerged as an attractive alternative, boasting a larger data source variety
and simpler deployment. However, current methods suffer from limitations such
as fixed receptive fields, a lack of global information interaction, leading to
noticeable instance-level height deviations. The inherent complexity of height
prediction can result in a blurry estimation of object edge depth when using
mainstream regression methods based on fixed height division. This paper
presents a comprehensive solution for monocular height estimation in remote
sensing, termed HeightFormer, combining multilevel interactions and
image-adaptive classification-regression. It features the Multilevel
Interaction Backbone (MIB) and Image-adaptive Classification-regression Height
Generator (ICG). MIB supplements the fixed sample grid in CNN of the
conventional backbone network with tokens of different interaction ranges. It
is complemented by a pixel-, patch-, and feature map-level hierarchical
interaction mechanism, designed to relay spatial geometry information across
different scales and introducing a global receptive field to enhance the
quality of instance-level height estimation. The ICG dynamically generates
height partition for each image and reframes the traditional regression task,
using a refinement from coarse to fine classification-regression that
significantly mitigates the innate ill-posedness issue and drastically improves
edge sharpness.
- Abstract(参考訳): 高度推定は,3次元都市モデリング,MR,自律運転などの取り組みにおいて重要な役割を担っている。
従来の方法ではステレオマッチングやマルチセンサー融合を利用しており、どちらも様々な視点からの複数の画像やsarのような隣接センサーを必要とする。
単一画像の高さ推定が魅力的な代替手段として登場し、データソースの多様性が大きく、デプロイが簡単になった。
しかし、現在の手法では、固定受容場やグローバルな情報相互作用の欠如といった制限に悩まされており、インスタンスレベルの高度偏差が顕著である。
高さ予測の本質的な複雑さは、固定高さ分割に基づく主流回帰法を用いる場合、オブジェクトエッジ深さのぼやけた推定をもたらす。
本稿では,マルチレベルインタラクションと画像適応型分類-回帰を組み合わせた遠隔センシングにおける単眼身長推定法を提案する。
multilevel interaction backbone (mib) と image-adaptive classification-regression height generator (icg) がある。
MIBは、従来のバックボーンネットワークのCNNにおける固定サンプルグリッドを異なる相互作用範囲のトークンで補う。
画素、パッチ、特徴マップレベルの階層的相互作用機構によって補完され、異なるスケールで空間幾何学情報を中継し、インスタンスレベルの高さ推定の品質を高めるためにグローバルな受容場を導入するように設計されている。
icgは、画像毎に高さ分割を動的に生成し、生来の不適切な問題を著しく軽減し、エッジシャープ性を大幅に改善する粗さから細かい分類回帰まで、従来の回帰タスクを再構築する。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HTC-DC Net: Monocular Height Estimation from Single Remote Sensing
Images [24.65766848068617]
光画像からモノクル高さを推定する手法を提案する。
不正な問題として、単分子の高さ推定は、表現の強化のためによく設計されたネットワークを必要とする。
分類-回帰パラダイムに従ってHTC-DCNetを提案し,主な貢献としてヘッドテールカット(HTC)と分散ベース制約(DC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T14:50:32Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical
Image Classification [16.455887856811465]
本稿では,医用画像分類のためのHiFuseと呼ばれる3分岐階層型マルチスケール機能融合ネットワーク構造を提案する。
提案したISICデータセットの精度はベースラインより7.6%高く、Covid-19データセットは21.5%、Kvasirデータセットは10.4%である。
論文 参考訳(メタデータ) (2022-09-21T09:30:20Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Disentangled Latent Transformer for Interpretable Monocular Height
Estimation [15.102260054654923]
深層ニューラルネットワークが単眼画像から身長を予測する方法について検討する。
私たちの研究は、MHEモデルの理解と設計の両方に新しい洞察を与えています。
論文 参考訳(メタデータ) (2022-01-17T11:42:30Z) - Height estimation from single aerial images using a deep ordinal
regression network [12.991266182762597]
単体画像からの高度推定の曖昧で未解決な問題に対処する。
深層学習、特に深層畳み込みニューラルネットワーク(CNN)の成功により、いくつかの研究は、単一の空中画像から高さ情報を推定することを提案した。
本稿では,高さ値を間隔増加間隔に分割し,回帰問題を順序回帰問題に変換することを提案する。
論文 参考訳(メタデータ) (2020-06-04T12:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。