論文の概要: GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.16370v1
- Date: Mon, 25 Mar 2024 02:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:17:05.314373
- Title: GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation
- Title(参考訳): GoodSAM: 変形を考慮したパノラマセマンティックセマンティックセマンティックセマンティックセマンティックセグメンテーションのためのセグメンテーションモデルによるブリッジングドメインとキャパシティギャップ
- Authors: Weiming Zhang, Yexin Liu, Xu Zheng, Lin Wang,
- Abstract要約: 本稿では,新しい課題に取り組み,新たなセグメンテーションモデル(SAM)から知識を伝達する方法について述べる。
そこで我々は,サンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入したGoodSAMというフレームワークを提案する。
2つのベンチマーク実験により、我々のGoodSAMは最先端(SOTA)ドメイン適応法よりも3.75%のmIoU改善を実現していることが示された。
- 参考スコア(独自算出の注目度): 22.344399402787644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles a novel yet challenging problem: how to transfer knowledge from the emerging Segment Anything Model (SAM) -- which reveals impressive zero-shot instance segmentation capacity -- to learn a compact panoramic semantic segmentation model, i.e., student, without requiring any labeled data. This poses considerable challenges due to SAM's inability to provide semantic labels and the large capacity gap between SAM and the student. To this end, we propose a novel framework, called GoodSAM, that introduces a teacher assistant (TA) to provide semantic information, integrated with SAM to generate ensemble logits to achieve knowledge transfer. Specifically, we propose a Distortion-Aware Rectification (DAR) module that first addresses the distortion problem of panoramic images by imposing prediction-level consistency and boundary enhancement. This subtly enhances TA's prediction capacity on panoramic images. DAR then incorporates a cross-task complementary fusion block to adaptively merge the predictions of SAM and TA to obtain more reliable ensemble logits. Moreover, we introduce a Multi-level Knowledge Adaptation (MKA) module to efficiently transfer the multi-level feature knowledge from TA and ensemble logits to learn a compact student model. Extensive experiments on two benchmarks show that our GoodSAM achieves a remarkable +3.75\% mIoU improvement over the state-of-the-art (SOTA) domain adaptation methods. Also, our most lightweight model achieves comparable performance to the SOTA methods with only 3.7M parameters.
- Abstract(参考訳): 本稿では,新たなセグメンションモデル (SAM) から知識を伝達する方法,すなわちゼロショットのインスタンスセグメンテーション能力を明らかにすることで,パノラマなセグメンテーションモデル,すなわち学生を,ラベル付きデータを必要とせずに学習する,という課題に対処する。
これはSAMがセマンティックラベルを提供できないことと、SAMと学生の間に大きな容量ギャップがあるため、かなりの問題を引き起こす。
そこで我々は,知識伝達を実現するためのアンサンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入した,GoodSAMと呼ばれる新しいフレームワークを提案する。
具体的には,まずパノラマ画像の歪み問題に予測レベルの一貫性と境界拡張を付与して対処するDAR(Distortion-Aware Rectification)モジュールを提案する。
これにより、パノラマ画像上でのTAの予測能力が微妙に向上する。
DARは、SAMとTAの予測を適応的にマージしてより信頼性の高いアンサンブルロジットを得るために、クロスタスクの補体融合ブロックを組み込む。
さらに,マルチレベル特徴知識をTAやアンサンブルロジットから効率的に転送し,コンパクトな学生モデルを学ぶためのマルチレベル知識適応(MKA)モジュールを導入する。
2つのベンチマークの大規模な実験により、我々のGoodSAMは、最先端(SOTA)ドメイン適応法よりも3.75 % mIoUの顕著な改善を達成できた。
また、我々の最も軽量なモデルは、3.7Mパラメータしか持たないSOTAメソッドに匹敵する性能を実現している。
関連論文リスト
- Continual Learning for Segment Anything Model Adaptation [14.00191851894315]
本研究では,8つのタスク領域を持つ新しい連続SAM適応(CoSAM)ベンチマークを提案する。
そこで,本研究では,SAMエンコーダがタスク領域ごとによく区切られた特徴を抽出するのを支援するために,新しい単純なyet- Effective Mixture of Domain Adapters (MoDA)アルゴリズムを提案する。
我々のMoDAは自然画像領域において高い競争力を維持しており、オリジナルのSAMのゼロショット性能に近づいた。
論文 参考訳(メタデータ) (2024-12-09T11:51:28Z) - Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。
SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - GoodSAM++: Bridging Domain and Capacity Gaps via Segment Anything Model for Panoramic Semantic Segmentation [22.344399402787644]
GoodSAM++はSAMの強力なゼロショットインスタンスセグメンテーション機能を利用して、コンパクトなパノラマ意味セグメンテーションモデルを学ぶ新しいフレームワークである。
GoodSAM++は、1)パノラマ画像のセマンティックラベルと固有の歪み問題をSAMが提供できないこと、2)SAMと学生の間に大きな容量格差があること、の2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2024-08-17T06:53:10Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。