論文の概要: CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model
- arxiv url: http://arxiv.org/abs/2402.03631v3
- Date: Tue, 16 Jul 2024 01:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 23:30:59.726314
- Title: CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model
- Title(参考訳): CAT-SAM:Segment Anything ModelのFew-Shot Adaptationのための条件調整
- Authors: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Ruijie Ren, Xiaoqin Zhang, Ling Shao, Shijian Lu,
- Abstract要約: 本稿では,CAT-SAM(ConditionAl Tuning Network)を提案する。
CAT-SAMはSAM全体を凍結し、マスクデコーダとイメージエンコーダに少数の学習可能なパラメータを同時に適用する。
Cat-SAM 変種は、非常に困難なワンショット適応設定の下でも、常に優れた目標セグメンテーション性能を達成する。
- 参考スコア(独自算出の注目度): 90.26396410706857
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent Segment Anything Model (SAM) has demonstrated remarkable zero-shot capability and flexible geometric prompting in general image segmentation. However, SAM often struggles when handling various unconventional images, such as aerial, medical, and non-RGB images. This paper presents CAT-SAM, a ConditionAl Tuning network that adapts SAM toward various unconventional target tasks with just few-shot target samples. CAT-SAM freezes the entire SAM and adapts its mask decoder and image encoder simultaneously with a small number of learnable parameters. The core design is a prompt bridge structure that enables decoder-conditioned joint tuning of the heavyweight image encoder and the lightweight mask decoder. The bridging maps the prompt token of the mask decoder to the image encoder, fostering synergic adaptation of the encoder and the decoder with mutual benefits. We develop two representative tuning strategies for the image encoder which leads to two CAT-SAM variants: one injecting learnable prompt tokens in the input space and the other inserting lightweight adapter networks. Extensive experiments over 11 unconventional tasks show that both CAT-SAM variants achieve superior target segmentation performance consistently even under the very challenging one-shot adaptation setup. Project page: https://xiaoaoran.github.io/projects/CAT-SAM
- Abstract(参考訳): 最近のSegment Anything Model (SAM) は、一般画像のセグメンテーションにおいて顕著なゼロショット能力と柔軟な幾何学的プロンプトを示した。
しかしSAMは、航空、医療、非RGB画像など、様々な非伝統的なイメージを扱う際にしばしば苦労する。
本稿では,CAT-SAM(ConditionAl Tuning Network)を提案する。
CAT-SAMはSAM全体を凍結し、マスクデコーダとイメージエンコーダに少数の学習可能なパラメータを同時に適用する。
コア設計は、重厚画像エンコーダと軽量マスクデコーダのデコーダ条件付きジョイントチューニングを可能にするプロンプトブリッジ構造である。
ブリッジングはマスクデコーダのプロンプトトークンを画像エンコーダにマッピングし、エンコーダとデコーダの相乗的適応を相互に促進する。
我々は、入力空間に学習可能なプロンプトトークンを注入する1つのCAT-SAMと、軽量なアダプタネットワークを挿入する2つのCAT-SAM変異をもたらすイメージエンコーダの2つの代表的チューニング戦略を開発する。
11の非従来型タスクに対する大規模な実験により、CAT-SAMはどちらも、非常に困難なワンショット適応設定の下でも、より優れた目標セグメンテーション性能を達成することが示された。
プロジェクトページ: https://xiaoaoran.github.io/projects/CAT-SAM
関連論文リスト
- SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM [62.85895749882285]
海洋動物(英: Marine Animal、MAS)は、海洋環境に生息する動物を分類する動物である。
高性能MASのための新しい特徴学習フレームワークDual-SAMを提案する。
提案手法は,広く使用されている5つのMASデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-07T15:34:40Z) - SAMCT: Segment Any CT Allowing Labor-Free Task-Indicator Prompts [28.171383990186904]
我々は、公開データセットから1.1MのCT画像と5Mのマスクからなる大規模なCTデータセットを構築した。
我々は、労働自由なプロンプトを可能にする強力な基盤モデルSAMCTを提案する。
SAMに基づいてSAMCTはさらに、CNNイメージエンコーダ、クロスブランチインタラクションモジュール、タスクインディケータプロンプトエンコーダを備えている。
論文 参考訳(メタデータ) (2024-03-20T02:39:15Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。