論文の概要: Bridge the Points: Graph-based Few-shot Segment Anything Semantically
- arxiv url: http://arxiv.org/abs/2410.06964v2
- Date: Fri, 11 Oct 2024 15:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:17:38.005838
- Title: Bridge the Points: Graph-based Few-shot Segment Anything Semantically
- Title(参考訳): Bridge the Points:グラフベースのFew-shotセグメンテーション
- Authors: Anqi Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei,
- Abstract要約: プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 79.1519244940518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.
- Abstract(参考訳): 近年の大規模事前訓練技術の進歩により、視覚基盤モデルの能力が大幅に向上し、特に、点と箱のプロンプトに基づいて正確なマスクを生成できるセグメンツ・アシング・モデル(SAM)が注目されている。
近年の研究では、SAMをFew-shot Semantic Segmentation (FSS)に拡張し、SAMベースの自動セマンティックセマンティックセマンティックセマンティックセマンティクスの迅速な生成に焦点を当てている。
しかし、これらの手法は適切なプロンプトの選択に苦慮し、異なるシナリオに対して特定のハイパーパラメータ設定が必要であり、SAMの過剰使用によるワンショット推論時間が長くなるため、効率が低下し、自動化能力が制限される。
これらの問題に対処するため,グラフ解析に基づく簡易かつ効果的な手法を提案する。
特に、Positive-Negative Alignmentモジュールは、マスクを生成するためのポイントプロンプトを動的に選択する。
その後のポイント・マスク・クラスタリングモジュールは、ポイント上のマスクカバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして整列する。
これらの点は、有向グラフの弱連結成分を効率的な方法で分解し、異なる自然クラスターを構成することによって集約される。
最後に、グラフベースの粒度アライメントの恩恵を受け、高信頼マスクを集約し、最終的な予測のために偽陽性マスクをフィルタリングし、追加のハイパーパラメータと冗長マスクの生成を減らす。
標準FSS、ワンショット部分セグメンテーション、クロスドメインFSSデータセットの広範な実験分析は、提案手法の有効性と効率を検証し、COCO-20iでは58.7%、LVIS-92iでは35.2%のmIoUで最先端のジェネラリストモデルを上回った。
コードはhttps://andyzaq.github.io/GF-SAM/で公開されている。
関連論文リスト
- AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model [28.343378406337077]
AM-SAMと呼ばれる自動プロンプトとマスクの校正手法を提案する。
提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を解消する。
実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
論文 参考訳(メタデータ) (2024-10-13T03:47:20Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - From Generalization to Precision: Exploring SAM for Tool Segmentation in
Surgical Environments [7.01085327371458]
セグメンテーションモデルでは, 汚損レベルの高い画像が大幅に過大評価され, 性能が低下する。
我々は,最高の単一マスクを予測として選択した場合のSAMの結果を分析するために,接地型ツールマスクを用いている。
本研究では,様々な強みの合成汚損データを用いて,Endovis18とEndovis17の計器セグメンテーションデータセットを解析した。
論文 参考訳(メタデータ) (2024-02-28T01:33:49Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。