論文の概要: Multi-scale Contrastive Adaptor Learning for Segmenting Anything in Underperformed Scenes
- arxiv url: http://arxiv.org/abs/2408.05936v1
- Date: Mon, 12 Aug 2024 06:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:45:05.039708
- Title: Multi-scale Contrastive Adaptor Learning for Segmenting Anything in Underperformed Scenes
- Title(参考訳): アンダーパフォーマンスシーンにおけるセグメンテーションのためのマルチスケールコントラスト適応学習
- Authors: Ke Zhou, Zhongwei Qiu, Dongmei Fu,
- Abstract要約: 本稿では, MCA-SAM という新しいマルチスケールコントラスト適応学習手法を提案する。
MCA-SAMはトークンレベルとサンプルレベルの両方で、巧妙に設計された対照的な学習フレームワークを通じて、アダプタのパフォーマンスを向上させる。
MCA-SAMは新しいベンチマークを設定し、既存の手法を3つの挑戦的な領域で上回る結果が得られた。
- 参考スコア(独自算出の注目度): 12.36950265154199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundational vision models, such as the Segment Anything Model (SAM), have achieved significant breakthroughs through extensive pre-training on large-scale visual datasets. Despite their general success, these models may fall short in specialized tasks with limited data, and fine-tuning such large-scale models is often not feasible. Current strategies involve incorporating adaptors into the pre-trained SAM to facilitate downstream task performance with minimal model adjustment. However, these strategies can be hampered by suboptimal learning approaches for the adaptors. In this paper, we introduce a novel Multi-scale Contrastive Adaptor learning method named MCA-SAM, which enhances adaptor performance through a meticulously designed contrastive learning framework at both token and sample levels. Our Token-level Contrastive adaptor (TC-adaptor) focuses on refining local representations by improving the discriminability of patch tokens, while the Sample-level Contrastive adaptor (SC-adaptor) amplifies global understanding across different samples. Together, these adaptors synergistically enhance feature comparison within and across samples, bolstering the model's representational strength and its ability to adapt to new tasks. Empirical results demonstrate that MCA-SAM sets new benchmarks, outperforming existing methods in three challenging domains: camouflage object detection, shadow segmentation, and polyp segmentation. Specifically, MCA-SAM exhibits substantial relative performance enhancements, achieving a 20.0% improvement in MAE on the COD10K dataset, a 6.0% improvement in MAE on the CAMO dataset, a 15.4% improvement in BER on the ISTD dataset, and a 7.9% improvement in mDice on the Kvasir-SEG dataset.
- Abstract(参考訳): Segment Anything Model (SAM)のような基礎的なビジョンモデルは、大規模なビジュアルデータセットの広範な事前トレーニングを通じて大きなブレークスルーを達成した。
一般的な成功にもかかわらず、これらのモデルは限られたデータを持つ特殊なタスクでは不足する可能性があり、そのような大規模モデルを微調整することは、しばしば実現不可能である。
現在の戦略は、最小限のモデル調整で下流タスクのパフォーマンスを向上させるために、事前訓練されたSAMにアダプタを組み込むことである。
しかし、これらの戦略は適応者に対する最適でない学習アプローチによって妨げられる。
本稿では,MCA-SAMと呼ばれる新しいマルチスケールコントラスト適応学習手法を提案する。
本誌のToken-level Contrastive Adaptor(TC-adaptor)は、パッチトークンの識別性を改善することによって局所的な表現を洗練することに焦点を当て、Sample-level Contrastive Adaptor(SC-adaptor)は異なるサンプル間でのグローバルな理解を増幅する。
これらのアダプタは、サンプル内およびサンプル間の特徴比較を相乗的に強化し、モデルの表現力と新しいタスクに適応する能力を高める。
MCA-SAMは新しいベンチマークを設定し、既存の手法を3つの挑戦的領域(カモフラージュオブジェクト検出、シャドーセグメンテーション、ポリープセグメンテーション)で上回った。
特に、MCA-SAMは、COD10KデータセットでMAEを20.0%改善し、CAMOデータセットでMAEを6.0%改善し、ISTDデータセットでBERを15.4%改善し、Kvasir-SEGデータセットでmDiceを7.9%改善した。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning [41.59855801010565]
大規模マルチモーダルモデル(LMM)は汎用アシスタントとして機能し、異なる分布に対して非常に堅牢である。
それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。
本研究は,LMMの適応性向上のための効果的な代替手段として,文脈内学習(ICL)について検討する。
論文 参考訳(メタデータ) (2024-05-20T17:59:21Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation [22.344399402787644]
本稿では,新しい課題に取り組み,新たなセグメンテーションモデル(SAM)から知識を伝達する方法について述べる。
そこで我々は,サンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入したGoodSAMというフレームワークを提案する。
2つのベンチマーク実験により、我々のGoodSAMは最先端(SOTA)ドメイン適応法よりも3.75%のmIoU改善を実現していることが示された。
論文 参考訳(メタデータ) (2024-03-25T02:30:32Z) - SAMDA: Leveraging SAM on Few-Shot Domain Adaptation for Electronic
Microscopy Segmentation [3.7562258027956186]
本稿では,新しいドメイン適応フレームワークSAMDAを紹介する。
これは、Segment Anything Model(SAM)と埋め込み空間のnnUNetを組み合わせることで、高い転送性と精度を実現する。
論文 参考訳(メタデータ) (2024-03-12T02:28:29Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Instance-specific and Model-adaptive Supervision for Semi-supervised
Semantic Segmentation [49.82432158155329]
iMAS と呼ばれる半教師付きセマンティックセグメンテーションのためのインスタンス固有およびモデル適応型監視法を提案する。
iMASは、評価された硬さに基づいて、対応する一貫性損失を測定することで、ラベルのないインスタンスから徐々に学習する。
論文 参考訳(メタデータ) (2022-11-21T10:37:28Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。