論文の概要: Disentangled Latent Transformer for Interpretable Monocular Height
Estimation
- arxiv url: http://arxiv.org/abs/2201.06357v1
- Date: Mon, 17 Jan 2022 11:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 03:09:19.076056
- Title: Disentangled Latent Transformer for Interpretable Monocular Height
Estimation
- Title(参考訳): インタプリタ型モノクロ高さ推定用遠方変圧器
- Authors: Zhitong Xiong Sining Chen, Yilei Shi, and Xiao Xiang Zhu
- Abstract要約: 深層ニューラルネットワークが単眼画像から身長を予測する方法について検討する。
私たちの研究は、MHEモデルの理解と設計の両方に新しい洞察を与えています。
- 参考スコア(独自算出の注目度): 15.102260054654923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular height estimation (MHE) from remote sensing imagery has high
potential in generating 3D city models efficiently for a quick response to
natural disasters. Most existing works pursue higher performance. However,
there is little research exploring the interpretability of MHE networks. In
this paper, we target at exploring how deep neural networks predict height from
a single monocular image. Towards a comprehensive understanding of MHE
networks, we propose to interpret them from multiple levels: 1) Neurons:
unit-level dissection. Exploring the semantic and height selectivity of the
learned internal deep representations; 2) Instances: object-level
interpretation. Studying the effects of different semantic classes, scales, and
spatial contexts on height estimation; 3) Attribution: pixel-level analysis.
Understanding which input pixels are important for the height estimation. Based
on the multi-level interpretation, a disentangled latent Transformer network is
proposed towards a more compact, reliable, and explainable deep model for
monocular height estimation. Furthermore, a novel unsupervised semantic
segmentation task based on height estimation is first introduced in this work.
Additionally, we also construct a new dataset for joint semantic segmentation
and height estimation. Our work provides novel insights for both understanding
and designing MHE models.
- Abstract(参考訳): リモートセンシング画像からの単眼高度推定 (mhe) は, 自然災害に対する迅速な対応のために, 効率的な3次元都市モデルを生成する可能性が高い。
現存する作品の多くは高い性能を追求している。
しかし、mheネットワークの解釈可能性についての研究はほとんどない。
本稿では,単一の単眼画像からディープニューラルネットワークが身長を予測する方法を検討することを目的とした。
MHEネットワークの包括的理解に向けて,複数のレベルから解釈することを提案する。
1) ニューロン: 単位レベル解離。
学習した内部深部表現の意味と高さの選択性を探る
2) インスタンス: オブジェクトレベルの解釈。
異なる意味クラス,尺度,空間的文脈が高さ推定に及ぼす影響に関する研究
3) 帰属: ピクセルレベルの分析。
どの入力画素が高さ推定に重要であるかを理解する。
マルチレベル解釈に基づき, よりコンパクトで信頼性が高く, 説明可能な単眼高さ推定用深層モデルに向けて, 不等角型潜在トランスネットワークを提案する。
さらに, 高さ推定に基づく新しい教師なし意味セグメンテーションタスクを本研究に導入した。
さらに,共同セマンティックセグメンテーションと高さ推定のための新しいデータセットを構築した。
私たちの研究はmheモデルの理解と設計の両方に新しい洞察を与えます。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer [12.486504395099022]
自己教師付き単眼深度推定はラベル付きデータに頼ることなく深度情報を推定することを目的としている。
ラベル付き情報の欠如はモデルの表現に重大な課題をもたらし、シーンの複雑な詳細を正確に捉える能力を制限する。
空間的, 文脈的, 意味的次元にまたがる表現能力に, 複数の先行情報を活用する新しい自己教師付き単眼深度推定モデルを提案する。
論文 参考訳(メタデータ) (2024-06-13T08:51:57Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-12-04T18:59:13Z) - HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images [10.716933766055755]
本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
論文 参考訳(メタデータ) (2023-10-12T02:49:00Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Height estimation from single aerial images using a deep ordinal
regression network [12.991266182762597]
単体画像からの高度推定の曖昧で未解決な問題に対処する。
深層学習、特に深層畳み込みニューラルネットワーク(CNN)の成功により、いくつかの研究は、単一の空中画像から高さ情報を推定することを提案した。
本稿では,高さ値を間隔増加間隔に分割し,回帰問題を順序回帰問題に変換することを提案する。
論文 参考訳(メタデータ) (2020-06-04T12:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。