論文の概要: ViRefSAM: Visual Reference-Guided Segment Anything Model for Remote Sensing Segmentation
- arxiv url: http://arxiv.org/abs/2507.02294v1
- Date: Thu, 03 Jul 2025 04:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.584553
- Title: ViRefSAM: Visual Reference-Guided Segment Anything Model for Remote Sensing Segmentation
- Title(参考訳): ViRefSAM: リモートセンシングセグメンテーションのためのビジュアル参照誘導セグメンテーションモデル
- Authors: Hanbo Bi, Yulong Xu, Ya Li, Yongqiang Mao, Boyuan Tong, Chongyang Li, Chunbo Lang, Wenhui Diao, Hongqi Wang, Yingchao Feng, Xian Sun,
- Abstract要約: ViRefSAMはSAMをガイドする新しいフレームワークで、いくつかの注釈付き参照イメージしか利用していない。
RS画像にまたがるクラス一貫性オブジェクトの自動セグメンテーションを可能にする。
さまざまなデータセット間で、既存の数ショットセグメンテーションメソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 21.953205396218767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM), with its prompt-driven paradigm, exhibits strong generalization in generic segmentation tasks. However, applying SAM to remote sensing (RS) images still faces two major challenges. First, manually constructing precise prompts for each image (e.g., points or boxes) is labor-intensive and inefficient, especially in RS scenarios with dense small objects or spatially fragmented distributions. Second, SAM lacks domain adaptability, as it is pre-trained primarily on natural images and struggles to capture RS-specific semantics and spatial characteristics, especially when segmenting novel or unseen classes. To address these issues, inspired by few-shot learning, we propose ViRefSAM, a novel framework that guides SAM utilizing only a few annotated reference images that contain class-specific objects. Without requiring manual prompts, ViRefSAM enables automatic segmentation of class-consistent objects across RS images. Specifically, ViRefSAM introduces two key components while keeping SAM's original architecture intact: (1) a Visual Contextual Prompt Encoder that extracts class-specific semantic clues from reference images and generates object-aware prompts via contextual interaction with target images; and (2) a Dynamic Target Alignment Adapter, integrated into SAM's image encoder, which mitigates the domain gap by injecting class-specific semantics into target image features, enabling SAM to dynamically focus on task-relevant regions. Extensive experiments on three few-shot segmentation benchmarks, including iSAID-5$^i$, LoveDA-2$^i$, and COCO-20$^i$, demonstrate that ViRefSAM enables accurate and automatic segmentation of unseen classes by leveraging only a few reference images and consistently outperforms existing few-shot segmentation methods across diverse datasets.
- Abstract(参考訳): Segment Anything Model (SAM)は、そのプロンプト駆動のパラダイムで、ジェネリックセグメンテーションタスクにおいて強力な一般化を示す。
しかし、SAMをリモートセンシング(RS)画像に適用することは、依然として2つの大きな課題に直面している。
第一に、手動で各画像(例えば点や箱)の正確なプロンプトを構築することは、特に高密度の小さなオブジェクトや空間的に断片化された分布を持つRSシナリオにおいて、労働集約的で非効率である。
第2に、SAMはドメイン適応性に欠けており、主に自然画像に基づいて事前訓練されており、特に新しいクラスや見えないクラスをセグメンティングする場合、RS固有の意味論と空間的特徴を捉えるのに苦労している。
これらの課題に対処するために,クラス固有のオブジェクトを含む注釈付き参照画像のみを利用してSAMをガイドする新しいフレームワークであるViRefSAMを提案する。
手動のプロンプトを必要とせずに、ViRefSAMはRSイメージにまたがるクラス一貫性オブジェクトの自動セグメンテーションを可能にする。
具体的には,(1)参照画像からクラス固有のセマンティックインストラクターを抽出し,対象画像とのコンテキストインタラクションを通じてオブジェクト認識プロンプトを生成するVisual Contextual Prompt Encoder,(2)動的ターゲットアライメントアダプタ,SAMの画像エンコーダに組み込み,ターゲット画像特徴にクラス固有のセマンティクスを注入することでドメインギャップを軽減し,SAMがタスク関連領域に動的にフォーカスできるようにする。
iSAID-5$^i$、LoveDA-2$^i$、COCO-20$^i$を含む3つのショットセグメンテーションベンチマークの大規模な実験は、ViRefSAMが参照画像のみを活用し、多様なデータセット間で既存のショットセグメンテーションメソッドを一貫して上回ることで、未確認クラスの正確かつ自動セグメンテーションを可能にすることを実証している。
関連論文リスト
- SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation [4.4700130387278225]
ほとんどショットのセグメンテーションは、未確認のオブジェクトカテゴリを、注釈付き例のほんの一握りの例から分割することを目的としている。
本稿では,SANSA (Semantically AligNed Segment Anything 2) を提案する。
論文 参考訳(メタデータ) (2025-05-27T21:51:28Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation [25.00605325290872]
本稿では,CD-FSS特徴表現学習のガイドとして,SAM対応グラフプロンプト推論ネットワーク(GPRN)を提案する。
GPRNはSAMによって生成されたマスクを高レベルの意味情報に富んだ視覚的なプロンプトに変換する。
提案手法は, 新たな最先端結果を確立するものである。
論文 参考訳(メタデータ) (2024-12-31T06:38:49Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Segment anything, from space? [8.126645790463266]
SAM(Segment Anything Model)は、安価な入力プロンプトに基づいて、入力画像中のオブジェクトをセグメント化することができる。
SAMは通常、目標タスクで訓練された視覚モデルに似た、あるいは時として超えた認識精度を達成した。
SAMの性能が画像のオーバーヘッド問題にまで及んでいるかどうかを考察し、その開発に対するコミュニティの反応を導くのに役立てる。
論文 参考訳(メタデータ) (2023-04-25T17:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。