論文の概要: Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation
- arxiv url: http://arxiv.org/abs/2312.03502v2
- Date: Wed, 10 Apr 2024 08:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 19:06:08.349780
- Title: Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation
- Title(参考訳): 微弱監督適応による分散シフト下におけるセグメント化基礎モデルの一般化
- Authors: Haojie Zhang, Yongyi Su, Xun Xu, Kui Jia,
- Abstract要約: 本稿では,アンカー正規化と低ランク微調整を併用した弱教師付き自己学習アーキテクチャを提案する。
本研究では, 自然浄化・破損画像, 医用画像, カモフラージュ画像, ロボット画像など, 5種類の下流セグメンテーションタスクの有効性を検証した。
- 参考スコア(独自算出の注目度): 43.759808066264334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large language models has inspired the computer vision community to explore image segmentation foundation model that is able to zero/few-shot generalize through prompt engineering. Segment-Anything(SAM), among others, is the state-of-the-art image segmentation foundation model demonstrating strong zero/few-shot generalization. Despite the success, recent studies reveal the weakness of SAM under strong distribution shift. In particular, SAM performs awkwardly on corrupted natural images, camouflaged images, medical images, etc. Motivated by the observations, we aim to develop a self-training based strategy to adapt SAM to target distribution. Given the unique challenges of large source dataset, high computation cost and incorrect pseudo label, we propose a weakly supervised self-training architecture with anchor regularization and low-rank finetuning to improve the robustness and computation efficiency of adaptation. We validate the effectiveness on 5 types of downstream segmentation tasks including natural clean/corrupted images, medical images, camouflaged images and robotic images. Our proposed method is task-agnostic in nature and outperforms pre-trained SAM and state-of-the-art domain adaptation methods on almost all downstream tasks with the same testing prompt inputs.
- Abstract(参考訳): 大規模な言語モデルの成功は、コンピュータビジョンコミュニティにインスピレーションを与え、迅速なエンジニアリングを通じてゼロ/フェーショットの一般化が可能なイメージセグメンテーション基盤モデルを探らせた。
Segment-Anything(SAM)は、強力なゼロ/ファウショットの一般化を示す最先端のイメージセグメンテーション基盤モデルである。
この成功にもかかわらず、近年の研究はSAMの強い分布シフトの下での弱さを明らかにしている。
特にSAMは、破損した自然画像、偽造画像、医療画像等にぎこちなく処理する。
本研究の目的は,SAMを目標分布に適応させる自己学習型戦略を開発することである。
大規模なデータセットの独特な課題,高い計算コスト,不正な擬似ラベルを考慮し,適応の堅牢性と計算効率を向上させるために,アンカー正規化と低ランク微調整を備えた弱教師付き自己学習アーキテクチャを提案する。
本研究では, 自然浄化・破損画像, 医用画像, カモフラージュ画像, ロボット画像など, 5種類の下流セグメンテーションタスクの有効性を検証した。
提案手法はタスク非依存であり、同じテストプロンプト入力を持つほぼすべての下流タスクにおいて、事前訓練されたSAMおよび最先端ドメイン適応法より優れる。
関連論文リスト
- Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
Segment Anything Model (SAM) は、その顕著な一般化能力により、異常セグメンテーションタスクにおいて大きな進歩を遂げている。
SAMを直接適用する既存のメソッドは、しばしばドメインシフトの問題を見落としている。
本稿では, SAMの異常セグメンテーションに対する知覚能力を高めることを目的とした, 自己パーセプティノンチューニング(SPT)手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - RobustSAM: Segment Anything Robustly on Degraded Images [19.767828436963317]
Segment Anything Model (SAM) は画像セグメンテーションにおける変換的アプローチとして登場した。
低画質画像におけるSAMの性能を向上させるRobust Segment Anything Model (RobustSAM)を提案する。
提案手法は, SAMに基づくダウンストリームタスクにおいて, 単一画像のデハージングやデブロアリングなどの性能を効果的に向上することを目的としている。
論文 参考訳(メタデータ) (2024-06-13T23:33:59Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Black-box Targeted Adversarial Attack on Segment Anything (SAM) [24.927514923402775]
本研究は,Segment Anything Model (SAM) におけるターゲット対敵攻撃 (TAA) の実現を目的とする。
具体的には、特定のプロンプトの下では、敵の例の予測マスクを所定のターゲット画像のマスクに類似させることが目的である。
本稿では, ランダムな自然画像に対する逆画像の特徴優位性を高めることで, クロスモデル転送可能性を高める新たな正規化損失を提案する。
論文 参考訳(メタデータ) (2023-10-16T02:09:03Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。