論文の概要: GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.16370v1
- Date: Mon, 25 Mar 2024 02:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:17:05.314373
- Title: GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation
- Title(参考訳): GoodSAM: 変形を考慮したパノラマセマンティックセマンティックセマンティックセマンティックセマンティックセグメンテーションのためのセグメンテーションモデルによるブリッジングドメインとキャパシティギャップ
- Authors: Weiming Zhang, Yexin Liu, Xu Zheng, Lin Wang,
- Abstract要約: 本稿では,新しい課題に取り組み,新たなセグメンテーションモデル(SAM)から知識を伝達する方法について述べる。
そこで我々は,サンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入したGoodSAMというフレームワークを提案する。
2つのベンチマーク実験により、我々のGoodSAMは最先端(SOTA)ドメイン適応法よりも3.75%のmIoU改善を実現していることが示された。
- 参考スコア(独自算出の注目度): 22.344399402787644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles a novel yet challenging problem: how to transfer knowledge from the emerging Segment Anything Model (SAM) -- which reveals impressive zero-shot instance segmentation capacity -- to learn a compact panoramic semantic segmentation model, i.e., student, without requiring any labeled data. This poses considerable challenges due to SAM's inability to provide semantic labels and the large capacity gap between SAM and the student. To this end, we propose a novel framework, called GoodSAM, that introduces a teacher assistant (TA) to provide semantic information, integrated with SAM to generate ensemble logits to achieve knowledge transfer. Specifically, we propose a Distortion-Aware Rectification (DAR) module that first addresses the distortion problem of panoramic images by imposing prediction-level consistency and boundary enhancement. This subtly enhances TA's prediction capacity on panoramic images. DAR then incorporates a cross-task complementary fusion block to adaptively merge the predictions of SAM and TA to obtain more reliable ensemble logits. Moreover, we introduce a Multi-level Knowledge Adaptation (MKA) module to efficiently transfer the multi-level feature knowledge from TA and ensemble logits to learn a compact student model. Extensive experiments on two benchmarks show that our GoodSAM achieves a remarkable +3.75\% mIoU improvement over the state-of-the-art (SOTA) domain adaptation methods. Also, our most lightweight model achieves comparable performance to the SOTA methods with only 3.7M parameters.
- Abstract(参考訳): 本稿では,新たなセグメンションモデル (SAM) から知識を伝達する方法,すなわちゼロショットのインスタンスセグメンテーション能力を明らかにすることで,パノラマなセグメンテーションモデル,すなわち学生を,ラベル付きデータを必要とせずに学習する,という課題に対処する。
これはSAMがセマンティックラベルを提供できないことと、SAMと学生の間に大きな容量ギャップがあるため、かなりの問題を引き起こす。
そこで我々は,知識伝達を実現するためのアンサンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入した,GoodSAMと呼ばれる新しいフレームワークを提案する。
具体的には,まずパノラマ画像の歪み問題に予測レベルの一貫性と境界拡張を付与して対処するDAR(Distortion-Aware Rectification)モジュールを提案する。
これにより、パノラマ画像上でのTAの予測能力が微妙に向上する。
DARは、SAMとTAの予測を適応的にマージしてより信頼性の高いアンサンブルロジットを得るために、クロスタスクの補体融合ブロックを組み込む。
さらに,マルチレベル特徴知識をTAやアンサンブルロジットから効率的に転送し,コンパクトな学生モデルを学ぶためのマルチレベル知識適応(MKA)モジュールを導入する。
2つのベンチマークの大規模な実験により、我々のGoodSAMは、最先端(SOTA)ドメイン適応法よりも3.75 % mIoUの顕著な改善を達成できた。
また、我々の最も軽量なモデルは、3.7Mパラメータしか持たないSOTAメソッドに匹敵する性能を実現している。
関連論文リスト
- ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic Segmentation [15.404188754049317]
クロスモーダルな知識伝達は、LiDARセマンティックセグメンテーションにおけるポイントクラウド表現学習を強化する。
その可能性にもかかわらず、テキスタイルの教師の挑戦は、反復的で異種でない車のカメラ画像と、不正確な地上の真実のラベルによって生じる。
本稿では,この問題を解決するために,効率的な画像からLiDARへの知識伝達(ELiTe)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-07T08:44:13Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM [62.85895749882285]
海洋動物(英: Marine Animal、MAS)は、海洋環境に生息する動物を分類する動物である。
高性能MASのための新しい特徴学習フレームワークDual-SAMを提案する。
提案手法は,広く使用されている5つのMASデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-07T15:34:40Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。