論文の概要: Zero-Shot Refinement of Buildings' Segmentation Models using SAM
- arxiv url: http://arxiv.org/abs/2310.01845v2
- Date: Sun, 11 Feb 2024 14:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 22:19:47.746521
- Title: Zero-Shot Refinement of Buildings' Segmentation Models using SAM
- Title(参考訳): SAMによる建物のセグメンテーションモデルのゼロショット化
- Authors: Ali Mayladan, Hasan Nasrallah, Hasan Moughnieh, Mustafa Shukor and Ali
J. Ghandour
- Abstract要約: 本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
- 参考スコア(独自算出の注目度): 6.110856077714895
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models have excelled in various tasks but are often evaluated on
general benchmarks. The adaptation of these models for specific domains, such
as remote sensing imagery, remains an underexplored area. In remote sensing,
precise building instance segmentation is vital for applications like urban
planning. While Convolutional Neural Networks (CNNs) perform well, their
generalization can be limited. For this aim, we present a novel approach to
adapt foundation models to address existing models' generalization dropback.
Among several models, our focus centers on the Segment Anything Model (SAM), a
potent foundation model renowned for its prowess in class-agnostic image
segmentation capabilities. We start by identifying the limitations of SAM,
revealing its suboptimal performance when applied to remote sensing imagery.
Moreover, SAM does not offer recognition abilities and thus fails to classify
and tag localized objects. To address these limitations, we introduce different
prompting strategies, including integrating a pre-trained CNN as a prompt
generator. This novel approach augments SAM with recognition abilities, a first
of its kind. We evaluated our method on three remote sensing datasets,
including the WHU Buildings dataset, the Massachusetts Buildings dataset, and
the AICrowd Mapping Challenge. For out-of-distribution performance on the WHU
dataset, we achieve a 5.47\% increase in IoU and a 4.81\% improvement in
F1-score. For in-distribution performance on the WHU dataset, we observe a
2.72\% and 1.58\% increase in True-Positive-IoU and True-Positive-F1 score,
respectively. Our code is publicly available at this Repo
(https://github.com/geoaigroup/GEOAI-ECRS2023), hoping to inspire further
exploration of foundation models for domain-specific tasks within the remote
sensing community.
- Abstract(参考訳): 基礎モデルは様々なタスクで優れているが、一般的なベンチマークでしばしば評価される。
リモートセンシング画像などの特定の領域へのこれらのモデルの適応は、まだ未探索領域である。
リモートセンシングでは、都市計画のようなアプリケーションには正確なビルディングインスタンスセグメンテーションが不可欠である。
畳み込みニューラルネットワーク(CNN)はよく機能するが、その一般化は限られる。
そこで本研究では,既存モデルの一般化損失に対応するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちは、クラスに依存しないイメージセグメンテーション能力で有名な強力な基盤モデルであるSegment Anything Model(SAM)に焦点を当てています。
まずSAMの限界を識別し、リモートセンシング画像に適用した場合の最適性能を明らかにする。
さらにSAMは認識機能を提供しておらず、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
これらの制約に対処するため、事前訓練されたCNNをプロンプトジェネレータとして統合するなど、異なるプロンプト戦略を導入する。
この新しいアプローチはSAMを認識能力で強化する。
本研究では,whuビルディングデータセット,マサチューセッツ州ビルディングデータセット,aicrowdマッピング課題を含む3つのリモートセンシングデータセットについて評価を行った。
whuデータセットでの分散性能については、iouの5.47\%、f1-scoreの4.81\%向上を達成している。
WHUデータセットの分布内性能について、正正IoUと真正F1の2.72\%と1.58\%の増加を観測した。
私たちのコードは、このリポジトリ(https://github.com/geoaigroup/geoai-ecrs2023)で公開されています。
関連論文リスト
- Revisiting Few-Shot Object Detection with Vision-Language Models [54.39740692635763]
FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。
我々は,任意の外部データセット上で事前訓練された検出器と,ターゲットクラス毎のKショットに微調整された検出器を評価するための,新しいベンチマークプロトコルであるFoundational FSODを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Offshore Wind Plant Instance Segmentation Using Sentinel-1 Time Series,
GIS, and Semantic Segmentation Models [0.3413711585591077]
本研究は,セマンティックセグメンテーションモデルとSentinel-1時系列を用いて,インスタンスレベルでオフショア風力プラントを検出することを目的とする。
LinkNetは最高パフォーマンスモデルで、続いてU-Net++とU-Netが続く一方、FPNとDeepLabv3+は最悪の結果を示した。
論文 参考訳(メタデータ) (2023-12-14T09:49:15Z) - Recognize Any Regions [59.08881073582635]
RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - A Billion-scale Foundation Model for Remote Sensing Images [5.8010446129208155]
基礎モデルの事前学習における3つの重要な要因は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。
本稿では,下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響について検討する。
我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。
論文 参考訳(メタデータ) (2023-04-11T13:33:45Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Decoupled Self Attention for Accurate One Stage Object Detection [4.791635488070342]
本稿では,1段階の物体検出モデルに対してデカップリング自己注意(DSA)モジュールを提案する。
DSAモジュールのネットワークは単純だが、オブジェクト検出の性能を効果的に向上させることができるが、多くの検出モデルに組み込むこともできる。
論文 参考訳(メタデータ) (2020-12-14T15:19:30Z) - Dynamic Refinement Network for Oriented and Densely Packed Object
Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。
我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。
我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文 参考訳(メタデータ) (2020-05-20T11:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。