論文の概要: Disentangled Latent Transformer for Interpretable Monocular Height
Estimation
- arxiv url: http://arxiv.org/abs/2201.06357v1
- Date: Mon, 17 Jan 2022 11:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 03:09:19.076056
- Title: Disentangled Latent Transformer for Interpretable Monocular Height
Estimation
- Title(参考訳): インタプリタ型モノクロ高さ推定用遠方変圧器
- Authors: Zhitong Xiong Sining Chen, Yilei Shi, and Xiao Xiang Zhu
- Abstract要約: 深層ニューラルネットワークが単眼画像から身長を予測する方法について検討する。
私たちの研究は、MHEモデルの理解と設計の両方に新しい洞察を与えています。
- 参考スコア(独自算出の注目度): 15.102260054654923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular height estimation (MHE) from remote sensing imagery has high
potential in generating 3D city models efficiently for a quick response to
natural disasters. Most existing works pursue higher performance. However,
there is little research exploring the interpretability of MHE networks. In
this paper, we target at exploring how deep neural networks predict height from
a single monocular image. Towards a comprehensive understanding of MHE
networks, we propose to interpret them from multiple levels: 1) Neurons:
unit-level dissection. Exploring the semantic and height selectivity of the
learned internal deep representations; 2) Instances: object-level
interpretation. Studying the effects of different semantic classes, scales, and
spatial contexts on height estimation; 3) Attribution: pixel-level analysis.
Understanding which input pixels are important for the height estimation. Based
on the multi-level interpretation, a disentangled latent Transformer network is
proposed towards a more compact, reliable, and explainable deep model for
monocular height estimation. Furthermore, a novel unsupervised semantic
segmentation task based on height estimation is first introduced in this work.
Additionally, we also construct a new dataset for joint semantic segmentation
and height estimation. Our work provides novel insights for both understanding
and designing MHE models.
- Abstract(参考訳): リモートセンシング画像からの単眼高度推定 (mhe) は, 自然災害に対する迅速な対応のために, 効率的な3次元都市モデルを生成する可能性が高い。
現存する作品の多くは高い性能を追求している。
しかし、mheネットワークの解釈可能性についての研究はほとんどない。
本稿では,単一の単眼画像からディープニューラルネットワークが身長を予測する方法を検討することを目的とした。
MHEネットワークの包括的理解に向けて,複数のレベルから解釈することを提案する。
1) ニューロン: 単位レベル解離。
学習した内部深部表現の意味と高さの選択性を探る
2) インスタンス: オブジェクトレベルの解釈。
異なる意味クラス,尺度,空間的文脈が高さ推定に及ぼす影響に関する研究
3) 帰属: ピクセルレベルの分析。
どの入力画素が高さ推定に重要であるかを理解する。
マルチレベル解釈に基づき, よりコンパクトで信頼性が高く, 説明可能な単眼高さ推定用深層モデルに向けて, 不等角型潜在トランスネットワークを提案する。
さらに, 高さ推定に基づく新しい教師なし意味セグメンテーションタスクを本研究に導入した。
さらに,共同セマンティックセグメンテーションと高さ推定のための新しいデータセットを構築した。
私たちの研究はmheモデルの理解と設計の両方に新しい洞察を与えます。
関連論文リスト
- Repurposing Diffusion-Based Image Generators for Monocular Depth
Estimation [21.2446985678711]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-12-04T18:59:13Z) - HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images [10.716933766055755]
本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
論文 参考訳(メタデータ) (2023-10-12T02:49:00Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - Height estimation from single aerial images using a deep ordinal
regression network [12.991266182762597]
単体画像からの高度推定の曖昧で未解決な問題に対処する。
深層学習、特に深層畳み込みニューラルネットワーク(CNN)の成功により、いくつかの研究は、単一の空中画像から高さ情報を推定することを提案した。
本稿では,高さ値を間隔増加間隔に分割し,回帰問題を順序回帰問題に変換することを提案する。
論文 参考訳(メタデータ) (2020-06-04T12:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。