論文の概要: E-SAM: Training-Free Segment Every Entity Model
- arxiv url: http://arxiv.org/abs/2503.12094v1
- Date: Sat, 15 Mar 2025 11:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:28.173098
- Title: E-SAM: Training-Free Segment Every Entity Model
- Title(参考訳): E-SAM: すべてのエンティティモデルのトレーニング不要セグメンテーション
- Authors: Weiming Zhang, Dingwen Xiao, Lei Chen, Lin Wang,
- Abstract要約: 特有なES能力を示す新しいトレーニングフリーフレームワークであるE-SAMを紹介する。
E-SAMは、以前のESメソッドと比較して最先端のパフォーマンスを実現し、ベンチマークメトリクスで+30.1で大幅に改善されている。
- 参考スコア(独自算出の注目度): 22.29478489117426
- License:
- Abstract: Entity Segmentation (ES) aims at identifying and segmenting distinct entities within an image without the need for predefined class labels. This characteristic makes ES well-suited to open-world applications with adaptation to diverse and dynamically changing environments, where new and previously unseen entities may appear frequently. Existing ES methods either require large annotated datasets or high training costs, limiting their scalability and adaptability. Recently, the Segment Anything Model (SAM), especially in its Automatic Mask Generation (AMG) mode, has shown potential for holistic image segmentation. However, it struggles with over-segmentation and under-segmentation, making it less effective for ES. In this paper, we introduce E-SAM, a novel training-free framework that exhibits exceptional ES capability. Specifically, we first propose Multi-level Mask Generation (MMG) that hierarchically processes SAM's AMG outputs to generate reliable object-level masks while preserving fine details at other levels. Entity-level Mask Refinement (EMR) then refines these object-level masks into accurate entity-level masks. That is, it separates overlapping masks to address the redundancy issues inherent in SAM's outputs and merges similar masks by evaluating entity-level consistency. Lastly, Under-Segmentation Refinement (USR) addresses under-segmentation by generating additional high-confidence masks fused with EMR outputs to produce the final ES map. These three modules are seamlessly optimized to achieve the best ES without additional training overhead. Extensive experiments demonstrate that E-SAM achieves state-of-the-art performance compared to prior ES methods, demonstrating a significant improvement by +30.1 on benchmark metrics.
- Abstract(参考訳): エンティティセグメンテーション(ES)は、事前に定義されたクラスラベルを必要とせずに、イメージ内の異なるエンティティを識別し、セグメンテーションすることを目的としている。
この特徴により、ESは多様な動的に変化する環境に適応するオープンワールドアプリケーションに適している。
既存のESメソッドは、大きなアノテートデータセットまたは高いトレーニングコストを必要とし、スケーラビリティと適応性を制限する。
近年,Segment Anything Model (SAM) は,特に自動マスク生成(AMG)モードにおいて,全体像セグメンテーションの可能性を示している。
しかし、過剰分画と過分画に苦しむため、ESにはあまり効果がない。
本稿では,例外的なES能力を示す新しいトレーニングフリーフレームワークであるE-SAMを紹介する。
具体的には,Multi-level Mask Generation (MMG)を提案する。これはSAMのAMG出力を階層的に処理し,他のレベルで細部を保存しながら信頼性の高いオブジェクトレベルのマスクを生成する。
エンティティレベルのマスクリファインメント(EMR)は、これらのオブジェクトレベルのマスクを正確なエンティティレベルのマスクに洗練する。
すなわち、重複マスクを分離し、SAMの出力に固有の冗長性問題に対処し、エンティティレベルの一貫性を評価することで類似マスクをマージする。
最後に、Under-Segmentation Refinement (USR)は、EMR出力と融合した高信頼マスクを生成して最終的なESマップを生成することで、アンダーセグメンテーションに対処する。
これら3つのモジュールは、トレーニングのオーバーヘッドを増やすことなく、最高のESを達成するようにシームレスに最適化されている。
大規模な実験により、E-SAMは以前のES法と比較して最先端のパフォーマンスを達成し、ベンチマークの指標で+30.1の大幅な改善が示された。
関連論文リスト
- Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。
SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。