Fugu-MT 論文翻訳(概要): Zero-Shot Refinement of Buildings' Segmentation Models using SAM

論文の概要: Zero-Shot Refinement of Buildings' Segmentation Models using SAM

arxiv url: http://arxiv.org/abs/2310.01845v2
Date: Sun, 11 Feb 2024 14:28:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 22:19:47.746521
Title: Zero-Shot Refinement of Buildings' Segmentation Models using SAM
Title（参考訳）: SAMによる建物のセグメンテーションモデルのゼロショット化
Authors: Ali Mayladan, Hasan Nasrallah, Hasan Moughnieh, Mustafa Shukor and Ali J. Ghandour
Abstract要約: 本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。 SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。この新しいアプローチはSAMを認識能力で強化する。
参考スコア（独自算出の注目度）: 6.110856077714895
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Foundation models have excelled in various tasks but are often evaluated on general benchmarks. The adaptation of these models for specific domains, such as remote sensing imagery, remains an underexplored area. In remote sensing, precise building instance segmentation is vital for applications like urban planning. While Convolutional Neural Networks (CNNs) perform well, their generalization can be limited. For this aim, we present a novel approach to adapt foundation models to address existing models' generalization dropback. Among several models, our focus centers on the Segment Anything Model (SAM), a potent foundation model renowned for its prowess in class-agnostic image segmentation capabilities. We start by identifying the limitations of SAM, revealing its suboptimal performance when applied to remote sensing imagery. Moreover, SAM does not offer recognition abilities and thus fails to classify and tag localized objects. To address these limitations, we introduce different prompting strategies, including integrating a pre-trained CNN as a prompt generator. This novel approach augments SAM with recognition abilities, a first of its kind. We evaluated our method on three remote sensing datasets, including the WHU Buildings dataset, the Massachusetts Buildings dataset, and the AICrowd Mapping Challenge. For out-of-distribution performance on the WHU dataset, we achieve a 5.47\% increase in IoU and a 4.81\% improvement in F1-score. For in-distribution performance on the WHU dataset, we observe a 2.72\% and 1.58\% increase in True-Positive-IoU and True-Positive-F1 score, respectively. Our code is publicly available at this Repo (https://github.com/geoaigroup/GEOAI-ECRS2023), hoping to inspire further exploration of foundation models for domain-specific tasks within the remote sensing community.
Abstract（参考訳）: 基礎モデルは様々なタスクで優れているが、一般的なベンチマークでしばしば評価される。リモートセンシング画像などの特定の領域へのこれらのモデルの適応は、まだ未探索領域である。リモートセンシングでは、都市計画のようなアプリケーションには正確なビルディングインスタンスセグメンテーションが不可欠である。畳み込みニューラルネットワーク(CNN)はよく機能するが、その一般化は限られる。そこで本研究では,既存モデルの一般化損失に対応するために基礎モデルを適用する新しいアプローチを提案する。いくつかのモデルの中で、私たちは、クラスに依存しないイメージセグメンテーション能力で有名な強力な基盤モデルであるSegment Anything Model(SAM)に焦点を当てています。まずSAMの限界を識別し、リモートセンシング画像に適用した場合の最適性能を明らかにする。さらにSAMは認識機能を提供しておらず、ローカライズされたオブジェクトの分類とタグ付けに失敗する。これらの制約に対処するため、事前訓練されたCNNをプロンプトジェネレータとして統合するなど、異なるプロンプト戦略を導入する。この新しいアプローチはSAMを認識能力で強化する。本研究では,whuビルディングデータセット,マサチューセッツ州ビルディングデータセット,aicrowdマッピング課題を含む3つのリモートセンシングデータセットについて評価を行った。 whuデータセットでの分散性能については、iouの5.47\%、f1-scoreの4.81\%向上を達成している。 WHUデータセットの分布内性能について、正正IoUと真正F1の2.72\%と1.58\%の増加を観測した。私たちのコードは、このリポジトリ(https://github.com/geoaigroup/geoai-ecrs2023)で公開されています。

関連論文リスト

Boundary-Aware Test-Time Adaptation for Zero-Shot Medical Image Segmentation [12.159529070716824]
BA-TTA-SAMはテスト時間適応によるSAMのゼロショットセグメンテーション性能を向上させるテスト時間適応フレームワークである。我々のフレームワークは、医用画像分割における最先端モデルよりも一貫して優れています。
論文参考訳（メタデータ） (2025-12-04T07:08:21Z)
GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。 GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。 GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文参考訳（メタデータ） (2025-11-19T17:45:02Z)
TASAM: Terrain-and-Aware Segment Anything Model for Temporal-Scale Remote Sensing Segmentation [20.89385225170904]
Segment Anything Model (SAM)は、自然画像領域にまたがる印象的なゼロショットセグメンテーション機能を実証した。本稿では,高解像度リモートセンシング画像セグメンテーションに特化して設計された SAM の地形・時間的拡張である TASAM を紹介する。
論文参考訳（メタデータ） (2025-09-19T09:24:24Z)
Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-26T11:53:59Z)
RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
Leveraging Segment Anything Model for Source-Free Domain Adaptation via Dual Feature Guided Auto-Prompting [14.640695608089796]
セグメンテーションのためのソースフリードメイン適応(SFDA)は、ソースドメインでトレーニングされたモデルを適用して、ターゲットドメインでうまく機能することを目的としている。私たちはSegment Anything Model for SFDAの可能性を初めて探求し、正確なバウンディングボックスプロンプトを自動的に見つけました。ボックスプロンプトを検索するための新しいDual Feature Guided (DFG) 自動プロンプト手法を提案する。
論文参考訳（メタデータ） (2025-05-13T13:00:48Z)
A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文参考訳（メタデータ） (2025-03-10T21:09:02Z)
Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。 SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文参考訳（メタデータ） (2024-11-08T02:15:20Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation [40.49924427388922]
本稿では,CD-FSS(Cross-dominan Few-shot segmentation)のためのタスク適応型自動視覚プロンプトフレームワークを提案する。クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んで、クラスドメインの特徴抽出を可能にし、高品質で学習可能なビジュアルプロンプトを生成する。本モデルでは,1ショット設定では1.3%,5ショット設定では11.76%の精度向上を実現し,最先端のCD-FSS手法よりも優れていた。
論文参考訳（メタデータ） (2024-09-09T07:43:58Z)
Offshore Wind Plant Instance Segmentation Using Sentinel-1 Time Series, GIS, and Semantic Segmentation Models [0.3413711585591077]
本研究は,セマンティックセグメンテーションモデルとSentinel-1時系列を用いて,インスタンスレベルでオフショア風力プラントを検出することを目的とする。 LinkNetは最高パフォーマンスモデルで、続いてU-Net++とU-Netが続く一方、FPNとDeepLabv3+は最悪の結果を示した。
論文参考訳（メタデータ） (2023-12-14T09:49:15Z)
Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文参考訳（メタデータ） (2023-06-06T16:16:05Z)
Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文参考訳（メタデータ） (2023-04-20T18:39:41Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Dynamic Refinement Network for Oriented and Densely Packed Object Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文参考訳（メタデータ） (2020-05-20T11:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。