論文の概要: SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2512.08730v1
- Date: Tue, 09 Dec 2025 15:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.026733
- Title: SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
- Title(参考訳): SegEarth-OV3: リモートセンシング画像におけるオープンボキャブラリセマンティックセマンティックセマンティックセマンティックセマンティクスのためのSAM 3探索
- Authors: Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao,
- Abstract要約: 我々は, SAM 3 をリモートセンシング OVSS タスクに適用するための予備的な検討を行った。
まず,SAM 3のセマンティックセグメンテーションヘッドとトランスフォーマーデコーダの出力を組み合わせたマスク融合戦略を実装した。
第2に、シーンに存在しないカテゴリをフィルタリングするために、プレゼンスヘッドからのプレゼンススコアを利用する。
- 参考スコア(独自算出の注目度): 51.42466259821335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing methods for training-free Open-Vocabulary Semantic Segmentation (OVSS) are based on CLIP. While these approaches have made progress, they often face challenges in precise localization or require complex pipelines to combine separate modules, especially in remote sensing scenarios where numerous dense and small targets are present. Recently, Segment Anything Model 3 (SAM 3) was proposed, unifying segmentation and recognition in a promptable framework. In this paper, we present a preliminary exploration of applying SAM 3 to the remote sensing OVSS task without any training. First, we implement a mask fusion strategy that combines the outputs from SAM 3's semantic segmentation head and the Transformer decoder (instance head). This allows us to leverage the strengths of both heads for better land coverage. Second, we utilize the presence score from the presence head to filter out categories that do not exist in the scene, reducing false positives caused by the vast vocabulary sizes and patch-level processing in geospatial scenes. We evaluate our method on extensive remote sensing datasets. Experiments show that this simple adaptation achieves promising performance, demonstrating the potential of SAM 3 for remote sensing OVSS. Our code is released at https://github.com/earth-insights/SegEarth-OV-3.
- Abstract(参考訳): 既存のトレーニングフリーなOpen-Vocabulary Semantic Segmentation (OVSS)はCLIPに基づいている。
これらのアプローチは進歩しているが、しばしば正確なローカライゼーションの課題に直面したり、特に多数の密集した小さなターゲットが存在するリモートセンシングシナリオにおいて、別々のモジュールを結合するために複雑なパイプラインを必要とする。
近年,Segment Anything Model 3 (SAM3) が提案されている。
本稿では,SAM 3 をリモートセンシング OVSS タスクに適用するための予備的な検討を行う。
まず,SAM 3のセマンティックセグメンテーションヘッドとトランスフォーマーデコーダ(インスタンスヘッド)の出力を組み合わせたマスク融合戦略を実装した。
これにより、両頭の強みを有効活用し、土地被覆を改善できます。
第2に,現場に存在しないカテゴリーを抽出し,膨大な語彙サイズによる偽陽性を減らし,空間的シーンにおけるパッチレベルの処理を行う。
本手法は,広範囲なリモートセンシングデータセットを用いて評価する。
実験により、この単純な適応は有望な性能を実現し、リモートセンシングOVSSにおけるSAM 3の可能性を示している。
私たちのコードはhttps://github.com/earth-insights/SegEarth-OV-3で公開されています。
関連論文リスト
- Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images [21.294581646546124]
AerOSegは、リモートセンシングデータのための新しいOpen-Vocabulary (OVS)アプローチである。
入力画像の回転バージョンとドメイン固有のプロンプトを用いて、ロバストな画像-テキスト相関特性を計算する。
多様な領域におけるSegment Anything Model(SAM)の成功に触発されて、SAMの特徴を活用し、相関特徴の空間的洗練を導出する。
我々は, マルチスケールのアテンション・アウェア・コンポジションを用いて, 最終的なセグメンテーション・マップを作成することにより, 改良された相関性を向上する。
論文 参考訳(メタデータ) (2025-04-12T13:06:46Z) - Visual and Text Prompt Segmentation: A Novel Multi-Model Framework for Remote Sensing [30.980687857037033]
本稿では,Grounding DINO,CLIP,SAMの強みを活かしたVTPSegパイプラインを提案する。
このパイプラインは,5つの一般的なリモートセンシング画像セグメンテーションデータセットを用いて,実験およびアブレーションによる検証を行った。
論文 参考訳(メタデータ) (2025-03-10T23:15:57Z) - Prompting DirectSAM for Semantic Contour Extraction in Remote Sensing Images [11.845626002236772]
我々は,自然画像から得られる強いセグメンテーション機能を継承するDirectSAM-RSという,DirectSAMから派生した基盤モデルを提案する。
このデータセットは34k以上の画像-テキスト-コンテンツトレーレットで構成されており、個々のデータセットの少なくとも30倍の大きさである。
我々は、DirectSAM-RSをゼロショットと微調整の両方で評価し、複数のダウンストリームベンチマークで最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2024-10-08T16:55:42Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。