論文の概要: Convolution Meets LoRA: Parameter Efficient Finetuning for Segment
Anything Model
- arxiv url: http://arxiv.org/abs/2401.17868v1
- Date: Wed, 31 Jan 2024 14:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:13:16.887315
- Title: Convolution Meets LoRA: Parameter Efficient Finetuning for Segment
Anything Model
- Title(参考訳): ConvolutionとLoRA: セグメンテーションモデルのためのパラメータ効率の良いファインタニング
- Authors: Zihan Zhong, Zhiqiang Tang, Tong He, Haoyang Fang, Chun Yuan
- Abstract要約: 本稿では,単純なパラメータ効率の良い微調整手法であるConv-LoRAを紹介する。
超軽量な畳み込みパラメータをローランド適応(LoRA)に統合することにより、画像関連帰納バイアスをプレーンなViTエンコーダに注入することができる。
特に、Conv-LoRAはSAMの広範なセグメンテーション知識を保存するだけでなく、ハイレベルなイメージセマンティクスを学習する能力も復活させる。
- 参考スコア(独自算出の注目度): 38.335255666297954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) stands as a foundational framework for image
segmentation. While it exhibits remarkable zero-shot generalization in typical
scenarios, its advantage diminishes when applied to specialized domains like
medical imagery and remote sensing. To address this limitation, this paper
introduces Conv-LoRA, a simple yet effective parameter-efficient fine-tuning
approach. By integrating ultra-lightweight convolutional parameters into
Low-Rank Adaptation (LoRA), Conv-LoRA can inject image-related inductive biases
into the plain ViT encoder, further reinforcing SAM's local prior assumption.
Notably, Conv-LoRA not only preserves SAM's extensive segmentation knowledge
but also revives its capacity of learning high-level image semantics, which is
constrained by SAM's foreground-background segmentation pretraining.
Comprehensive experimentation across diverse benchmarks spanning multiple
domains underscores Conv-LoRA's superiority in adapting SAM to real-world
semantic segmentation tasks.
- Abstract(参考訳): Segment Anything Model (SAM) は画像セグメンテーションの基礎となるフレームワークである。
典型的なシナリオでは顕著なゼロショット一般化を示すが、医療画像やリモートセンシングといった専門分野に適用するとその利点は減少する。
この制限に対処するため,本論文では,パラメータ効率の良い微調整手法であるconv-loraを提案する。
超軽量な畳み込みパラメータをローランド適応(LoRA)に統合することにより、画像関連帰納バイアスをプレーンなViTエンコーダに注入し、SAMの局所的な前提をさらに強化することができる。
特に、Conv-LoRAはSAMの広範なセグメンテーション知識を保存しているだけでなく、SAMのフォアグラウンド・バックグラウンド・セグメンテーション事前訓練によって制約された高レベルのイメージセグメンテーションの学習能力を復活させる。
複数のドメインにまたがる様々なベンチマークの総合的な実験は、SAMを現実のセマンティックセグメンテーションタスクに適応する際のConv-LoRAの優位性を示している。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-SP: Self-Prompting Makes SAM Great Again [11.109389094334894]
Segment Anything Model (SAM)は、ゼロショットセグメンテーションタスクにおいて印象的な機能を示した。
SAMは、医療画像などの特定の領域に適用した場合、顕著な劣化性能に遭遇する。
本稿では,バニラSAMモデルの拡張に適したSAM-SPという,自己プロンプトに基づくファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:03:05Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - VRP-SAM: SAM with Visual Reference Prompt [73.05676082695459]
そこで我々は,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案する。
本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。
論文 参考訳(メタデータ) (2024-02-27T17:58:09Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。