論文の概要: Granular Computing-driven SAM: From Coarse-to-Fine Guidance for Prompt-Free Segmentation
- arxiv url: http://arxiv.org/abs/2511.19062v1
- Date: Mon, 24 Nov 2025 12:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.199083
- Title: Granular Computing-driven SAM: From Coarse-to-Fine Guidance for Prompt-Free Segmentation
- Title(参考訳): グラニュラーコンピューティング駆動SAM:プロンプトフリーセグメンテーションのための粗大なガイダンスから
- Authors: Qiyang Yu, Yu Fang, Tianrui Li, Xuemei Cao, Yan Chen, Jianghao Li, Fan Min, Yi Zhang,
- Abstract要約: グラニュラーコンピューティングをモチベーションとした粗大なフレームワークであるグラニュラーコンピューティング駆動SAM(Grc-SAM)を紹介する。
まず、粗いステージが特徴から高応答領域を適応的に抽出し、精密な前景の局所化を実現する。
第2に、詳細なモデリングを強化するために、局所的なスウィンスタイルの細かな注意を伴って、より微細なパッチパーティショニングを適用する。
第3に、洗練されたマスクはSAMデコーダの遅延プロンプト埋め込みとしてエンコードされ、手作りプロンプトを自動推論プロセスに置き換える。
- 参考スコア(独自算出の注目度): 17.190865623538212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-free image segmentation aims to generate accurate masks without manual guidance. Typical pre-trained models, notably Segmentation Anything Model (SAM), generate prompts directly at a single granularity level. However, this approach has two limitations: (1) Localizability, lacking mechanisms for autonomous region localization; (2) Scalability, limited fine-grained modeling at high resolution. To address these challenges, we introduce Granular Computing-driven SAM (Grc-SAM), a coarse-to-fine framework motivated by Granular Computing (GrC). First, the coarse stage adaptively extracts high-response regions from features to achieve precise foreground localization and reduce reliance on external prompts. Second, the fine stage applies finer patch partitioning with sparse local swin-style attention to enhance detail modeling and enable high-resolution segmentation. Third, refined masks are encoded as latent prompt embeddings for the SAM decoder, replacing handcrafted prompts with an automated reasoning process. By integrating multi-granularity attention, Grc-SAM bridges granular computing with vision transformers. Extensive experimental results demonstrate Grc-SAM outperforms baseline methods in both accuracy and scalability. It offers a unique granular computational perspective for prompt-free segmentation.
- Abstract(参考訳): プロンプトフリー画像分割は、手動による指示なしに正確なマスクを生成することを目的としている。
典型的な事前訓練されたモデル、特にSegmentation Anything Model (SAM)は、単一の粒度レベルで直接プロンプトを生成する。
しかし、このアプローチには、(1)局所性、(2)自律的な局所化のメカニズムの欠如、(2)スケーラビリティ、高分解能でのきめ細かいモデリングの制限、の2つの制限がある。
これらの課題に対処するために、グラニュラーコンピューティング(GrC)をモチベーションとした粗大なフレームワークであるグラニュラーコンピューティング駆動SAM(Grc-SAM)を紹介する。
まず、粗いステージが特徴から高応答領域を適応的に抽出し、精密な前景の局所化を実現し、外部のプロンプトへの依存を低減する。
第二に、より微細なパッチパーティショニングを局所的なスウィン型注意で施し、ディテールモデリングを強化し、高分解能セグメンテーションを可能にする。
第3に、洗練されたマスクはSAMデコーダの遅延プロンプト埋め込みとしてエンコードされ、手作りプロンプトを自動推論プロセスに置き換える。
マルチグラニュラリティアテンションを統合することで、Grc-SAMはグラニュラーコンピューティングとビジョントランスフォーマーを橋渡しする。
Grc-SAMは精度とスケーラビリティの両方でベースライン法より優れていた。
これは、プロンプトフリーなセグメンテーションに対して、独特な粒度の計算的視点を提供する。
関連論文リスト
- Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。
このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。
さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-12T06:38:18Z) - AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model [28.343378406337077]
AM-SAMと呼ばれる自動プロンプトとマスクの校正手法を提案する。
提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を解消する。
実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
論文 参考訳(メタデータ) (2024-10-13T03:47:20Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - GraCo: Granularity-Controllable Interactive Segmentation [52.9695642626127]
Granularity-Controllable Interactive (GraCo) は、入力に追加パラメータを導入することによって、予測粒度の正確な制御を可能にする新しいアプローチである。
GraCoは、事前訓練されたISモデルのセマンティック特性を利用して、豊富なマスクとグラニュラリティのペアを自動的に生成する。
オブジェクトと部分レベルの複雑なシナリオの実験は、GraCoが以前の方法よりも大きな利点があることを示しています。
論文 参考訳(メタデータ) (2024-05-01T15:50:16Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。
本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。
様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T09:13:51Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。