論文の概要: Semantic-Fast-SAM: Efficient Semantic Segmenter
- arxiv url: http://arxiv.org/abs/2604.20169v2
- Date: Thu, 23 Apr 2026 05:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.040793
- Title: Semantic-Fast-SAM: Efficient Semantic Segmenter
- Title(参考訳): セマンティック・ファスト・SAM:効率的なセマンティック・セマンティック・セマンティクス
- Authors: Byunghyun Kim,
- Abstract要約: 本稿では,高速セグメンテーションモデルとセマンティックラベリングパイプラインを組み合わせたセマンティックセグメンテーションフレームワークを提案する。
FastSAMは、CNNベースのSegment Anything Model(SAM)の効率的な再実装である。
SFSはSAMベースの手法の計算コストとメモリフットプリントのごく一部で高品質なセマンティックセグメンテーションマップを生成する。
- 参考スコア(独自算出の注目度): 0.6816905600359814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Semantic-Fast-SAM (SFS), a semantic segmentation framework that combines the Fast Segment Anything model with a semantic labeling pipeline to achieve real-time performance without sacrificing accuracy. FastSAM is an efficient CNN-based re-implementation of the Segment Anything Model (SAM) that runs much faster than the original transformer-based SAM. Building upon FastSAM's rapid mask generation, we integrate a Semantic-Segment-Anything (SSA) labeling strategy to assign meaningful categories to each mask. The resulting SFS model produces high-quality semantic segmentation maps at a fraction of the computational cost and memory footprint of the original SAM-based approach. Experiments on Cityscapes and ADE20K benchmarks demonstrate that SFS matches the accuracy of prior SAM-based methods (mIoU ~ 70.33 on Cityscapes and 48.01 on ADE20K) while achieving approximately 20x faster inference than SSA in the closed-set setting. We also show that SFS effectively handles open-vocabulary segmentation by leveraging CLIP-based semantic heads, outperforming recent open-vocabulary models on broad class labeling. This work enables practical real-time semantic segmentation with the "segment-anything" capability, broadening the applicability of foundation segmentation models in robotics scenarios. The implementation is available at https://github.com/KBH00/Semantic-Fast-SAM.
- Abstract(参考訳): 本稿では,セマンティック・ファスト・SAM(Semantic-Fast-SAM)というセマンティック・セマンティック・セマンティック・セマンティック・フレームワークを提案する。
FastSAMは、CNNベースのSegment Anything Model(SAM)の効率的な再実装である。
FastSAMの高速マスク生成に基づいて、セマンティック・セグメンテーション・アニーシング(SSA)ラベル戦略を統合し、各マスクに意味のあるカテゴリを割り当てる。
結果として得られたSFSモデルは、SAMベースのアプローチの計算コストとメモリフットプリントのごく一部で高品質なセマンティックセマンティック・セマンティック・マップを生成する。
CityscapesとADE20Kベンチマークの実験では、SFSは以前のSAMベースの手法(CityscapesではmIoU ~70.33、ADE20Kでは48.01)の精度と一致し、クローズドセット設定ではSSAよりも約20倍高速な推論を実現している。
また、SFSはCLIPベースのセマンティックヘッドを利用して、オープン語彙のセマンティック化を効果的に処理し、最近のオープン語彙モデルよりも幅広いクラスラベリングにおいて優れていることを示す。
この作業により、"セグメンテーション・アズ・ア・シング"機能を備えた実用的なリアルタイムセグメンテーションが可能になり、ロボットシナリオにおける基礎セグメンテーションモデルの適用性を広げる。
実装はhttps://github.com/KBH00/Semantic-Fast-SAMで公開されている。
関連論文リスト
- Do Instance Priors Help Weakly Supervised Semantic Segmentation? [82.75875820720616]
SeSAMは、セグメンテーションモデル(Segment Anything Model、SAM)と弱いラベルを持つフレームワークである。
SeSAMはクラスマスクを接続されたコンポーネントに分解し、オブジェクトスケルトンに沿ってサンプルポイントプロンプトを抽出し、弱いラベルカバレッジを使用してSAMマスクを選択し、擬似ラベルを使用してラベルを反復的に洗練する。
SeSAMは、半教師付き学習フレームワークと統合され、基底構造ラベル、SAMベースの擬似ラベル、高信頼の擬似ラベルのバランスをとる。
論文 参考訳(メタデータ) (2026-04-13T08:29:49Z) - SAM-MI: A Mask-Injected Framework for Enhancing Open-Vocabulary Semantic Segmentation with SAM [25.136857576951282]
Mask-injected framework SAM-MIはSAMとOVSSモデルを統合し、課題に対処する。
SAM-MIはテキスト誘導スパースポイントプロンプターを使用して、以前の密度の強いグリッドのようなプロンプトの代わりにSAMのスパースプロンプターをサンプリングする。
DMIにはSAM生成マスクが組み込まれており、ラベルと直接組み合わせるのではなく、低周波と高周波を別々に誘導する。
論文 参考訳(メタデータ) (2025-11-25T07:52:07Z) - SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters [0.5755004576310334]
本稿では,冷凍CLIP由来のテキスト埋め込みをクラスレベルのセマンティックガイダンスとして用いたSAM-PTxを提案する。
具体的には,SAMのイメージにテキスト埋め込みを注入し,セマンティクスによるセグメンテーションを可能にするParallel-Textという軽量アダプタを提案する。
固定テキスト埋め込みを入力として組み込むことで、純粋に空間的なプロンプトベースラインよりもセグメンテーション性能が向上することを示す。
論文 参考訳(メタデータ) (2025-07-31T23:26:39Z) - SCHNet: SAM Marries CLIP for Human Parsing [11.299133502596517]
Segment Anything Model (SAM) と Contrastive Language-Image Pre-Training Model (CLIP) は,セグメンテーションおよび検出タスクにおいて有望な性能を示した。
我々は、SAMとCLIPの機能を効果的に統合し、人間の解析に役立てるために、高効率なモジュールを定式化する。
論文 参考訳(メタデータ) (2025-03-28T08:40:06Z) - SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。
インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。
動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。
効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。