論文の概要: HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications
- arxiv url: http://arxiv.org/abs/2503.18540v1
- Date: Mon, 24 Mar 2025 10:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:36.002774
- Title: HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications
- Title(参考訳): 高分解能RGB-DSM事前学習モデルHiRes-FusedMIM
- Authors: Guneet Mutreja, Philipp Schuegraf, Ksenia Bittner,
- Abstract要約: HiRes-FusedMIMは、高解像度のRGBおよびDSMデータに含まれる豊富な情報を活用するために特別に設計された、新しい事前訓練モデルである。
分類,セマンティックセグメンテーション,インスタンスセグメンテーションなど,さまざまな下流タスクに対して,HiRes-FusedMIMの総合評価を行った。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: Recent advances in self-supervised learning have led to the development of foundation models that have significantly advanced performance in various computer vision tasks. However, despite their potential, these models often overlook the crucial role of high-resolution digital surface models (DSMs) in understanding urban environments, particularly for building-level analysis, which is essential for applications like digital twins. To address this gap, we introduce HiRes-FusedMIM, a novel pre-trained model specifically designed to leverage the rich information contained within high-resolution RGB and DSM data. HiRes-FusedMIM utilizes a dual-encoder simple masked image modeling (SimMIM) architecture with a multi-objective loss function that combines reconstruction and contrastive objectives, enabling it to learn powerful, joint representations from both modalities. We conducted a comprehensive evaluation of HiRes-FusedMIM on a diverse set of downstream tasks, including classification, semantic segmentation, and instance segmentation. Our results demonstrate that: 1) HiRes-FusedMIM outperforms previous state-of-the-art geospatial methods on several building-related datasets, including WHU Aerial and LoveDA, demonstrating its effectiveness in capturing and leveraging fine-grained building information; 2) Incorporating DSMs during pre-training consistently improves performance compared to using RGB data alone, highlighting the value of elevation information for building-level analysis; 3) The dual-encoder architecture of HiRes-FusedMIM, with separate encoders for RGB and DSM data, significantly outperforms a single-encoder model on the Vaihingen segmentation task, indicating the benefits of learning specialized representations for each modality. To facilitate further research and applications in this direction, we will publicly release the trained model weights.
- Abstract(参考訳): 近年の自己教師型学習の進歩は、様々なコンピュータビジョンタスクにおいて非常に高度な性能を持つ基礎モデルの開発につながっている。
しかしながら、これらのモデルはしばしば、都市環境を理解する上での高解像度デジタルサーフェスモデル(DSM)の重要な役割を見落としている。
このギャップに対処するために、高解像度のRGBおよびDSMデータに含まれる豊富な情報を活用するために特別に設計された、新しい事前学習モデルHiRes-FusedMIMを導入する。
HiRes-FusedMIMは、デュアルエンコーダの単純なマスク付き画像モデリング(SimMIM)アーキテクチャと、再構成とコントラスト目的を組み合わせた多目的損失関数を用いて、両方のモダリティから強力なジョイント表現を学習する。
分類,セマンティックセグメンテーション,インスタンスセグメンテーションなど,さまざまな下流タスクに対して,HiRes-FusedMIMの総合評価を行った。
私たちの結果はこう示しています。
1)HiRes-FusedMIMは、WHU AerialやLoveDAを含むいくつかの建築関連データセットにおいて、過去の最先端の地理空間法を上回り、きめ細かい建築情報を取得して活用する効果を実証する。
2)事前学習中にDSMを組み込むことは,RGBデータのみを用いた場合と比較して連続的に性能が向上し,ビルレベルの解析における標高情報の価値が強調される。
3) HiRes-FusedMIMのデュアルエンコーダアーキテクチャは,RGBデータとDSMデータを分離したエンコーダであり,Vayhingenセグメンテーションタスクにおいて単一エンコーダモデルよりも優れており,各モダリティに対する特殊表現の学習のメリットを示している。
この方向のさらなる研究や応用を促進するため、トレーニングされたモデルウェイトを公開します。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary [12.39040757106137]
この問題に対処するために,革新的なRetriever-Dictionary (RD) モジュールを導入する。
このアーキテクチャにより、YOLOベースのモデルは、データセットの洞察を含むDictionaryから機能を効率的に取得できる。
実験の結果,RDを用いることでモデル性能が有意に向上し,平均平均精度が3%以上向上することがわかった。
論文 参考訳(メタデータ) (2024-10-20T09:38:58Z) - ATOMMIC: An Advanced Toolbox for Multitask Medical Imaging Consistency to facilitate Artificial Intelligence applications from acquisition to analysis in Magnetic Resonance Imaging [0.10434396204054465]
ATOMMICはオープンソースのツールボックスで、加速MRIの再構成と分析のためにAIアプリケーションを合理化する。
ATOMMICは、DLネットワークを使用して複数のタスクを実装し、MRI領域における一般化をターゲットとして、MultiTask Learning (MTL)が関連するタスクを統合化できるようにする。
論文 参考訳(メタデータ) (2024-04-30T16:00:21Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data [27.63411386396492]
本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセマンティクスのための新しいベンチマークデータセットを提案する。
提案するベンチマークは,1)共登録RGBとnDSMペアと画素単位のセマンティックラベルを含む大規模データセットと,2)リモートセンシングデータに基づく畳み込みとトランスフォーマーベースのネットワークのための既存のマルチモーダル融合戦略の包括的評価と解析からなる。
論文 参考訳(メタデータ) (2023-05-24T09:03:18Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Revealing the Invisible with Model and Data Shrinking for
Composite-database Micro-expression Recognition [49.463864096615254]
入力複雑性とモデル複雑性を含む学習複雑性の影響を分析する。
より浅層構造と低分解能入力データを探索する再帰畳み込みネットワーク(RCN)を提案する。
学習可能なパラメータを増やさなくてもRCNと統合できる3つのパラメータフリーモジュールを開発した。
論文 参考訳(メタデータ) (2020-06-17T06:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。