論文の概要: Segment Anything in High Quality
- arxiv url: http://arxiv.org/abs/2306.01567v2
- Date: Mon, 23 Oct 2023 12:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:49:50.161011
- Title: Segment Anything in High Quality
- Title(参考訳): あらゆるものを高品質に分割する
- Authors: Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai,
Chi-Keung Tang, Fisher Yu
- Abstract要約: そこで本研究では,SAM のプロンプト可能な設計,効率,ゼロショットの一般化性を維持しつつ,任意のオブジェクトを正確にセグメント化できる HQ-SAM を提案する。
注意深い設計はSAMの事前訓練されたモデルの重みを再利用し、保存し、最小限の追加パラメータと計算しか導入しない。
ダウンストリームタスクにまたがる10種類のセグメンテーションデータセットでHQ-SAMの有効性を示し,そのうち8つをゼロショット転送プロトコルで評価した。
- 参考スコア(独自算出の注目度): 116.39405160133315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent Segment Anything Model (SAM) represents a big leap in scaling up
segmentation models, allowing for powerful zero-shot capabilities and flexible
prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction
quality falls short in many cases, particularly when dealing with objects that
have intricate structures. We propose HQ-SAM, equipping SAM with the ability to
accurately segment any object, while maintaining SAM's original promptable
design, efficiency, and zero-shot generalizability. Our careful design reuses
and preserves the pre-trained model weights of SAM, while only introducing
minimal additional parameters and computation. We design a learnable
High-Quality Output Token, which is injected into SAM's mask decoder and is
responsible for predicting the high-quality mask. Instead of only applying it
on mask-decoder features, we first fuse them with early and final ViT features
for improved mask details. To train our introduced learnable parameters, we
compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is
only trained on the introduced detaset of 44k masks, which takes only 4 hours
on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 10 diverse segmentation
datasets across different downstream tasks, where 8 out of them are evaluated
in a zero-shot transfer protocol. Our code and pretrained models are at
https://github.com/SysCV/SAM-HQ.
- Abstract(参考訳): 最近のSegment Anything Model(SAM)は、セグメンテーションモデルをスケールアップする大きな飛躍であり、強力なゼロショット機能と柔軟なプロンプトを可能にする。
11億のマスクで訓練されているにもかかわらず、サムのマスクの予測品質は多くの場合、特に複雑な構造を持つオブジェクトを扱う場合、不足している。
本稿では,SAM の本来の設計,効率,ゼロショットの一般化性を維持しつつ,任意のオブジェクトを正確にセグメント化できる HQ-SAM を提案する。
注意深い設計はSAMの事前訓練されたモデルの重みを再利用し保存し、最小限の追加パラメータと計算しか導入しない。
SAMのマスクデコーダに入力し,高品質なマスクを予測する学習可能な高品質出力トークンを設計する。
マスクデコーダ機能にのみ適用する代わりに、マスクの詳細を改善するために、まず初期のViT機能と最後のViT機能を融合します。
導入した学習可能なパラメータをトレーニングするために、複数のソースから44Kのきめ細かいマスクのデータセットを作成します。
HQ-SAMは、紹介された44kマスクの切り離しでのみトレーニングされており、8GPUで4時間しかかからない。
ダウンストリームタスクにまたがる10種類のセグメンテーションデータセットでHQ-SAMの有効性を示し,そのうち8つをゼロショット転送プロトコルで評価した。
私たちのコードと事前訓練されたモデルはhttps://github.com/SysCV/SAM-HQ.orgにある。
関連論文リスト
- MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - How to Efficiently Adapt Large Segmentation Model(SAM) to Medical Images [15.181219203629643]
Segment Anything (SAM)は、自然画像のゼロショットセグメンテーションにおいて印象的な機能を示す。
しかし、医療画像に適用すると、SAMは顕著なパフォーマンス低下に悩まされる。
本研究では,SAMエンコーダを凍結し,軽量なタスク固有予測ヘッドを微調整することを提案する。
論文 参考訳(メタデータ) (2023-06-23T18:34:30Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Improving Sharpness-Aware Minimization with Fisher Mask for Better
Generalization on Language Models [93.85178920914721]
限られた訓練コーパス上の微調整された大きな事前訓練された言語モデルは、通常、計算の貧弱さに悩まされる。
本稿では,新しい最適化手法であるFSAMを提案し,SAMの効率と性能を改善するためにフィッシャーマスクを導入した。
FSAMは4種類の事前訓練モデルにおいて,バニラSAMの平均スコア0.671.98を上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。