論文の概要: SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2501.00303v1
- Date: Tue, 31 Dec 2024 06:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:58.806482
- Title: SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation
- Title(参考訳): クロスドメインFew-ShotセグメンテーションのためのSAM対応グラフプロンプト推論ネットワーク
- Authors: Shi-Feng Peng, Guolei Sun, Yong Li, Hongsong Wang, Guo-Sen Xie,
- Abstract要約: 本稿では,CD-FSS特徴表現学習のガイドとして,SAM対応グラフプロンプト推論ネットワーク(GPRN)を提案する。
GPRNはSAMによって生成されたマスクを高レベルの意味情報に富んだ視覚的なプロンプトに変換する。
提案手法は, 新たな最先端結果を確立するものである。
- 参考スコア(独自算出の注目度): 25.00605325290872
- License:
- Abstract: The primary challenge of cross-domain few-shot segmentation (CD-FSS) is the domain disparity between the training and inference phases, which can exist in either the input data or the target classes. Previous models struggle to learn feature representations that generalize to various unknown domains from limited training domain samples. In contrast, the large-scale visual model SAM, pre-trained on tens of millions of images from various domains and classes, possesses excellent generalizability. In this work, we propose a SAM-aware graph prompt reasoning network (GPRN) that fully leverages SAM to guide CD-FSS feature representation learning and improve prediction accuracy. Specifically, we propose a SAM-aware prompt initialization module (SPI) to transform the masks generated by SAM into visual prompts enriched with high-level semantic information. Since SAM tends to divide an object into many sub-regions, this may lead to visual prompts representing the same semantic object having inconsistent or fragmented features. We further propose a graph prompt reasoning (GPR) module that constructs a graph among visual prompts to reason about their interrelationships and enable each visual prompt to aggregate information from similar prompts, thus achieving global semantic consistency. Subsequently, each visual prompt embeds its semantic information into the corresponding mask region to assist in feature representation learning. To refine the segmentation mask during testing, we also design a non-parameter adaptive point selection module (APS) to select representative point prompts from query predictions and feed them back to SAM to refine inaccurate segmentation results. Experiments on four standard CD-FSS datasets demonstrate that our method establishes new state-of-the-art results. Code: https://github.com/CVL-hub/GPRN.
- Abstract(参考訳): クロスドメイン小ショットセグメンテーション(CD-FSS)の主な課題は、トレーニングと推論フェーズのドメイン格差であり、入力データまたはターゲットクラスのいずれかに存在する。
以前のモデルは、限られたトレーニングドメインサンプルから、未知のドメインを一般化する特徴表現を学ぶのに苦労していた。
対照的に、様々なドメインやクラスから数千万の画像に事前訓練された大規模ビジュアルモデルSAMは、優れた一般化性を持っている。
本研究では, SAMをフル活用してCD-FSS特徴表現学習を指導し, 予測精度を向上させる SAM-aware graph prompt reasoning network (GPRN) を提案する。
具体的には、SAMによって生成されたマスクを高レベルな意味情報に富んだ視覚的プロンプトに変換するためのSAM対応プロンプト初期化モジュール(SPI)を提案する。
SAMはオブジェクトを多くのサブリージョンに分割する傾向があるため、一貫性のない、あるいは断片化された特徴を持つ同じセマンティックオブジェクトを表す視覚的なプロンプトにつながる可能性がある。
さらに,視覚的プロンプト間のグラフを構成するグラフプロンプト推論(GPR)モジュールを提案する。
その後、各視覚プロンプトはその意味情報を対応するマスク領域に埋め込んで特徴表現学習を支援する。
テスト中のセグメンテーションマスクを改良するために、クエリ予測から代表点プロンプトを選択し、SAMにフィードバックし、不正確なセグメンテーション結果を精査する非パラメータ適応点選択モジュール(APS)を設計する。
4つの標準CD-FSSデータセットに対する実験により,本手法が新たな最先端結果を確立することを示す。
コード:https://github.com/CVL-hub/GPRN。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - PointSAM: Pointly-Supervised Segment Anything Model for Remote Sensing Images [16.662173255725463]
本稿では,PointSAM という新しいセグメンテーションモデルを提案する。
我々は, WHU, HRSID, NWPU VHR-10を含むRSIデータセットの実験を行った。
その結果,本手法はSAM,SAM2,その他の比較法で直接試験よりも優れていた。
論文 参考訳(メタデータ) (2024-09-20T11:02:18Z) - TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation [40.49924427388922]
本稿では,CD-FSS(Cross-dominan Few-shot segmentation)のためのタスク適応型自動視覚プロンプトフレームワークを提案する。
クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んで、クラスドメインの特徴抽出を可能にし、高品質で学習可能なビジュアルプロンプトを生成する。
本モデルでは,1ショット設定では1.3%,5ショット設定では11.76%の精度向上を実現し,最先端のCD-FSS手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T07:43:58Z) - Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation [4.6570959687411975]
Segment Anything Model (SAM) は例外的な一般化能力を示す。
SAMは大規模なリモートセンシング画像の事前トレーニングを欠いているため、インタラクティブな構造は自動マスク予測能力を制限している。
マルチ認知SAMベースインスタンスモデル (MC-SAM SEG) を導入し, リモートセンシング領域にSAMを採用する。
MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
論文 参考訳(メタデータ) (2024-08-16T07:23:22Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Learning to Prompt Segment Anything Models [55.805816693815835]
Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
論文 参考訳(メタデータ) (2024-01-09T16:24:25Z) - Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects [32.14438610147615]
我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。
3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T15:43:36Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。