論文の概要: Zero-Shot Refinement of Buildings' Segmentation Models using SAM
- arxiv url: http://arxiv.org/abs/2310.01845v1
- Date: Tue, 3 Oct 2023 07:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 17:04:24.333235
- Title: Zero-Shot Refinement of Buildings' Segmentation Models using SAM
- Title(参考訳): SAMによる建物のセグメンテーションモデルのゼロショット化
- Authors: Ali Mayladan, Hasan Nasrallah, Hasan Moughnieh, Mustafa Shukor and Ali
J. Ghandour
- Abstract要約: 本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
- 参考スコア(独自算出の注目度): 6.110856077714895
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models have excelled in various tasks but are often evaluated on
general benchmarks. The adaptation of these models for specific domains, such
as remote sensing imagery, remains an underexplored area. In remote sensing,
precise building instance segmentation is vital for applications like urban
planning. While Convolutional Neural Networks (CNNs) perform well, their
generalization can be limited. For this aim, we present a novel approach to
adapt foundation models to address existing models' generalization dropback.
Among several models, our focus centers on the Segment Anything Model (SAM), a
potent foundation model renowned for its prowess in class-agnostic image
segmentation capabilities. We start by identifying the limitations of SAM,
revealing its suboptimal performance when applied to remote sensing imagery.
Moreover, SAM does not offer recognition abilities and thus fails to classify
and tag localized objects. To address these limitations, we introduce different
prompting strategies, including integrating a pre-trained CNN as a prompt
generator. This novel approach augments SAM with recognition abilities, a first
of its kind. We evaluated our method on three remote sensing datasets,
including the WHU Buildings dataset, the Massachusetts Buildings dataset, and
the AICrowd Mapping Challenge. For out-of-distribution performance on the WHU
dataset, we achieve a 5.47% increase in IoU and a 4.81% improvement in
F1-score. For in-distribution performance on the WHU dataset, we observe a
2.72% and 1.58% increase in True-Positive-IoU and True-Positive-F1 score,
respectively. We intend to release our code repository, hoping to inspire
further exploration of foundation models for domain-specific tasks within the
remote sensing community.
- Abstract(参考訳): 基礎モデルは様々なタスクで優れているが、一般的なベンチマークでしばしば評価される。
リモートセンシング画像などの特定の領域へのこれらのモデルの適応は、まだ未探索領域である。
リモートセンシングでは、都市計画のようなアプリケーションには正確なビルディングインスタンスセグメンテーションが不可欠である。
畳み込みニューラルネットワーク(CNN)はよく機能するが、その一般化は限られる。
そこで本研究では,既存モデルの一般化損失に対応するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちは、クラスに依存しないイメージセグメンテーション能力で有名な強力な基盤モデルであるSegment Anything Model(SAM)に焦点を当てています。
まずSAMの限界を識別し、リモートセンシング画像に適用した場合の最適性能を明らかにする。
さらにSAMは認識機能を提供しておらず、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
これらの制約に対処するため、事前訓練されたCNNをプロンプトジェネレータとして統合するなど、異なるプロンプト戦略を導入する。
この新しいアプローチはSAMを認識能力で強化する。
本研究では,whuビルディングデータセット,マサチューセッツ州ビルディングデータセット,aicrowdマッピング課題を含む3つのリモートセンシングデータセットについて評価を行った。
WHUデータセットのアウト・オブ・ディストリビューション性能のために、IoUは5.47%増加し、F1スコアは4.81%改善した。
WHUデータセット上での分配性能について、True-Positive-IoUとTrue-Positive-F1のスコアはそれぞれ2.72%と1.58%増加した。
私たちは、リモートセンシングコミュニティ内のドメイン固有タスクの基礎モデルをさらに探究するために、コードリポジトリをリリースするつもりです。
関連論文リスト
- Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。
SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:15:20Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Offshore Wind Plant Instance Segmentation Using Sentinel-1 Time Series,
GIS, and Semantic Segmentation Models [0.3413711585591077]
本研究は,セマンティックセグメンテーションモデルとSentinel-1時系列を用いて,インスタンスレベルでオフショア風力プラントを検出することを目的とする。
LinkNetは最高パフォーマンスモデルで、続いてU-Net++とU-Netが続く一方、FPNとDeepLabv3+は最悪の結果を示した。
論文 参考訳(メタデータ) (2023-12-14T09:49:15Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Dynamic Refinement Network for Oriented and Densely Packed Object
Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。
我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。
我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文 参考訳(メタデータ) (2020-05-20T11:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。