論文の概要: SSR: SAM is a Strong Regularizer for domain adaptive semantic
segmentation
- arxiv url: http://arxiv.org/abs/2401.14686v1
- Date: Fri, 26 Jan 2024 07:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 15:53:29.767560
- Title: SSR: SAM is a Strong Regularizer for domain adaptive semantic
segmentation
- Title(参考訳): SSR:SAMはドメイン適応型セマンティックセグメンテーションのための強正則化器である
- Authors: Yanqi Ge, Ye Huang, Wen Li, Lixin Duan
- Abstract要約: 本稿では,SAM(segment-anything)をトレーニング中に強力な正則化器として利用するSSRを紹介する。
我々のSSRは、追加の推論オーバーヘッドを導入することなく、ベースライン上での性能を著しく改善しました。
- 参考スコア(独自算出の注目度): 26.725467745421266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduced SSR, which utilizes SAM (segment-anything) as a strong
regularizer during training, to greatly enhance the robustness of the image
encoder for handling various domains. Specifically, given the fact that SAM is
pre-trained with a large number of images over the internet, which cover a
diverse variety of domains, the feature encoding extracted by the SAM is
obviously less dependent on specific domains when compared to the traditional
ImageNet pre-trained image encoder. Meanwhile, the ImageNet pre-trained image
encoder is still a mature choice of backbone for the semantic segmentation
task, especially when the SAM is category-irrelevant. As a result, our SSR
provides a simple yet highly effective design. It uses the ImageNet pre-trained
image encoder as the backbone, and the intermediate feature of each stage (ie
there are 4 stages in MiT-B5) is regularized by SAM during training. After
extensive experimentation on GTA5$\rightarrow$Cityscapes, our SSR significantly
improved performance over the baseline without introducing any extra inference
overhead.
- Abstract(参考訳): 本研究では,SSRを導入し,SAM(segment-anything)をトレーニング中の強力な正則化器として利用し,画像エンコーダの強靭性を大幅に向上させた。
特に、samがさまざまなドメインをカバーするインターネット上の多数の画像で事前訓練されているという事実を考えると、samによって抽出された特徴エンコーディングは、従来のimagenetプリトレーニング画像エンコーダと比較して、明らかに特定のドメインに依存しない。
一方、ImageNet事前訓練されたイメージエンコーダは、特にSAMがカテゴリ非関連である場合、セマンティックセグメンテーションタスクのバックボーンの成熟した選択である。
結果として、我々のSSRはシンプルだが非常に効果的な設計を提供する。
バックボーンにはImageNet事前トレーニングイメージエンコーダを使用し、トレーニング中にSAMによって各ステージの中間機能(MiT-B5には4つのステージがある)が正規化される。
GTA5$\rightarrow$Cityscapesの広範な実験の後、SSRは追加の推論オーバーヘッドを導入することなく、ベースライン上での性能を著しく改善した。
関連論文リスト
- Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation [4.6570959687411975]
Segment Anything Model (SAM) は例外的な一般化能力を示す。
SAMは大規模なリモートセンシング画像の事前トレーニングを欠いているため、インタラクティブな構造は自動マスク予測能力を制限している。
マルチ認知SAMベースインスタンスモデル (MC-SAM SEG) を導入し, リモートセンシング領域にSAMを採用する。
MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
論文 参考訳(メタデータ) (2024-08-16T07:23:22Z) - Deep Instruction Tuning for Segment Anything Model [68.7934961590075]
Segment Anything Model (SAM) はマルチメディアとコンピュータビジョンの分野で研究ホットスポットとなっている。
SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、テキストで指示されたタスクでは、はるかに悪化する。
SAMのための2つの簡易かつ効果的なディープ・インストラクション・チューニング(DIT)手法を提案し,その1つはエンドツーエンドであり、もう1つはレイヤワイズである。
論文 参考訳(メタデータ) (2024-03-31T11:37:43Z) - CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model [90.26396410706857]
本稿では,CAT-SAM(ConditionAl Tuning Network)を提案する。
CAT-SAMはSAM全体を凍結し、マスクデコーダとイメージエンコーダに少数の学習可能なパラメータを同時に適用する。
Cat-SAM 変種は、非常に困難なワンショット適応設定の下でも、常に優れた目標セグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2024-02-06T02:00:18Z) - Convolution Meets LoRA: Parameter Efficient Finetuning for Segment
Anything Model [38.335255666297954]
本稿では,単純なパラメータ効率の良い微調整手法であるConv-LoRAを紹介する。
超軽量な畳み込みパラメータをローランド適応(LoRA)に統合することにより、画像関連帰納バイアスをプレーンなViTエンコーダに注入することができる。
特に、Conv-LoRAはSAMの広範なセグメンテーション知識を保存するだけでなく、ハイレベルなイメージセマンティクスを学習する能力も復活させる。
論文 参考訳(メタデータ) (2024-01-31T14:27:07Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。