論文の概要: Bridge the Points: Graph-based Few-shot Segment Anything Semantically
- arxiv url: http://arxiv.org/abs/2410.06964v2
- Date: Fri, 11 Oct 2024 15:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 11:34:42.887407
- Title: Bridge the Points: Graph-based Few-shot Segment Anything Semantically
- Title(参考訳): Bridge the Points:グラフベースのFew-shotセグメンテーション
- Authors: Anqi Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei,
- Abstract要約: プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 79.1519244940518
- License:
- Abstract: The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.
- Abstract(参考訳): 近年の大規模事前訓練技術の進歩により、視覚基盤モデルの能力が大幅に向上し、特に、点と箱のプロンプトに基づいて正確なマスクを生成できるセグメンツ・アシング・モデル(SAM)が注目されている。
近年の研究では、SAMをFew-shot Semantic Segmentation (FSS)に拡張し、SAMベースの自動セマンティックセマンティックセマンティックセマンティックセマンティクスの迅速な生成に焦点を当てている。
しかし、これらの手法は適切なプロンプトの選択に苦慮し、異なるシナリオに対して特定のハイパーパラメータ設定が必要であり、SAMの過剰使用によるワンショット推論時間が長くなるため、効率が低下し、自動化能力が制限される。
これらの問題に対処するため,グラフ解析に基づく簡易かつ効果的な手法を提案する。
特に、Positive-Negative Alignmentモジュールは、マスクを生成するためのポイントプロンプトを動的に選択する。
その後のポイント・マスク・クラスタリングモジュールは、ポイント上のマスクカバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして整列する。
これらの点は、有向グラフの弱連結成分を効率的な方法で分解し、異なる自然クラスターを構成することによって集約される。
最後に、グラフベースの粒度アライメントの恩恵を受け、高信頼マスクを集約し、最終的な予測のために偽陽性マスクをフィルタリングし、追加のハイパーパラメータと冗長マスクの生成を減らす。
標準FSS、ワンショット部分セグメンテーション、クロスドメインFSSデータセットの広範な実験分析は、提案手法の有効性と効率を検証し、COCO-20iでは58.7%、LVIS-92iでは35.2%のmIoUで最先端のジェネラリストモデルを上回った。
コードはhttps://andyzaq.github.io/GF-SAM/で公開されている。
関連論文リスト
- SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - From Generalization to Precision: Exploring SAM for Tool Segmentation in
Surgical Environments [7.01085327371458]
セグメンテーションモデルでは, 汚損レベルの高い画像が大幅に過大評価され, 性能が低下する。
我々は,最高の単一マスクを予測として選択した場合のSAMの結果を分析するために,接地型ツールマスクを用いている。
本研究では,様々な強みの合成汚損データを用いて,Endovis18とEndovis17の計器セグメンテーションデータセットを解析した。
論文 参考訳(メタデータ) (2024-02-28T01:33:49Z) - PWISeg: Point-based Weakly-supervised Instance Segmentation for Surgical
Instruments [27.89003436883652]
我々はPWISeg (Point-based Weakly-supervised Instance) という,弱制御型手術器具セグメンテーション手法を提案する。
PWISegは、特徴点とバウンディングボックスの関係をモデル化するために、ポイント・ツー・ボックスとポイント・ツー・マスクのブランチを備えたFCNベースのアーキテクチャを採用している。
そこで本研究では,キー・ツー・マスク・ブランチを駆動し,より正確なセグメンテーション予測を生成するキー・ピクセル・アソシエーション・ロスとキー・ピクセル・アソシエーション・ロスを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:48:29Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。