Fugu-MT 論文翻訳(概要): Bridge the Points: Graph-based Few-shot Segment Anything Semantically

論文の概要: Bridge the Points: Graph-based Few-shot Segment Anything Semantically

arxiv url: http://arxiv.org/abs/2410.06964v2
Date: Fri, 11 Oct 2024 15:09:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 23:17:38.005838
Title: Bridge the Points: Graph-based Few-shot Segment Anything Semantically
Title（参考訳）: Bridge the Points:グラフベースのFew-shotセグメンテーション
Authors: Anqi Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei,
Abstract要約: プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
参考スコア（独自算出の注目度）: 79.1519244940518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.
Abstract（参考訳）: 近年の大規模事前訓練技術の進歩により、視覚基盤モデルの能力が大幅に向上し、特に、点と箱のプロンプトに基づいて正確なマスクを生成できるセグメンツ・アシング・モデル(SAM)が注目されている。近年の研究では、SAMをFew-shot Semantic Segmentation (FSS)に拡張し、SAMベースの自動セマンティックセマンティックセマンティックセマンティックセマンティクスの迅速な生成に焦点を当てている。しかし、これらの手法は適切なプロンプトの選択に苦慮し、異なるシナリオに対して特定のハイパーパラメータ設定が必要であり、SAMの過剰使用によるワンショット推論時間が長くなるため、効率が低下し、自動化能力が制限される。これらの問題に対処するため,グラフ解析に基づく簡易かつ効果的な手法を提案する。特に、Positive-Negative Alignmentモジュールは、マスクを生成するためのポイントプロンプトを動的に選択する。その後のポイント・マスク・クラスタリングモジュールは、ポイント上のマスクカバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして整列する。これらの点は、有向グラフの弱連結成分を効率的な方法で分解し、異なる自然クラスターを構成することによって集約される。最後に、グラフベースの粒度アライメントの恩恵を受け、高信頼マスクを集約し、最終的な予測のために偽陽性マスクをフィルタリングし、追加のハイパーパラメータと冗長マスクの生成を減らす。標準FSS、ワンショット部分セグメンテーション、クロスドメインFSSデータセットの広範な実験分析は、提案手法の有効性と効率を検証し、COCO-20iでは58.7%、LVIS-92iでは35.2%のmIoUで最先端のジェネラリストモデルを上回った。コードはhttps://andyzaq.github.io/GF-SAM/で公開されている。

関連論文リスト

ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。 ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文参考訳（メタデータ） (2025-07-21T17:02:57Z)
E-SAM: Training-Free Segment Every Entity Model [22.29478489117426]
特有なES能力を示す新しいトレーニングフリーフレームワークであるE-SAMを紹介する。 E-SAMは、以前のESメソッドと比較して最先端のパフォーマンスを実現し、ベンチマークメトリクスで+30.1で大幅に改善されている。
論文参考訳（メタデータ） (2025-03-15T11:41:33Z)
SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文参考訳（メタデータ） (2025-02-10T18:33:15Z)
AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model [28.343378406337077]
AM-SAMと呼ばれる自動プロンプトとマスクの校正手法を提案する。提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を解消する。実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
論文参考訳（メタデータ） (2024-10-13T03:47:20Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文参考訳（メタデータ） (2024-07-31T10:12:14Z)
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-07-02T16:02:25Z)
From Generalization to Precision: Exploring SAM for Tool Segmentation in Surgical Environments [7.01085327371458]
セグメンテーションモデルでは, 汚損レベルの高い画像が大幅に過大評価され, 性能が低下する。我々は,最高の単一マスクを予測として選択した場合のSAMの結果を分析するために,接地型ツールマスクを用いている。本研究では,様々な強みの合成汚損データを用いて,Endovis18とEndovis17の計器セグメンテーションデータセットを解析した。
論文参考訳（メタデータ） (2024-02-28T01:33:49Z)
SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文参考訳（メタデータ） (2022-02-15T13:53:03Z)
Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文参考訳（メタデータ） (2020-12-10T07:57:44Z)
Online Multi-Object Tracking and Segmentation with GMPHD Filter and Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。 2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文参考訳（メタデータ） (2020-08-31T21:06:22Z)
PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文参考訳（メタデータ） (2020-03-13T08:24:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。