論文の概要: Deep Instruction Tuning for Segment Anything Model
- arxiv url: http://arxiv.org/abs/2404.00650v1
- Date: Sun, 31 Mar 2024 11:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:30:41.723102
- Title: Deep Instruction Tuning for Segment Anything Model
- Title(参考訳): セグメンテーションモデルのためのディープインストラクションチューニング
- Authors: Xiaorui Huang, Gen Luo, Chaoyang Zhu, Bo Tong, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: Segment Anything Model (SAM) は、条件付き画像のセグメンテーションタスクにおいて強力だが汎用的な機能を示す。
このような欠点を緩和するためには、深層テキストのチューニングが重要であると我々は主張する。
3つの非常に競争力のあるベンチマークデータセットの実験は、単純なエンドツーエンドDITがSAMを大幅に改善することを示している。
- 参考スコア(独自算出の注目度): 68.7934961590075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model (SAM) exhibits powerful yet versatile capabilities on (un) conditional image segmentation tasks recently. Although SAM can support various segmentation prompts, we note that, compared to point- and box-guided segmentation, it performs much worse on text-instructed tasks. We argue that deep text instruction tuning is key to mitigate such shortcoming caused by the shallow fusion scheme in its default light-weight mask decoder. In this paper, two \emph{deep instruction tuning} (DIT) methods are proposed, one is end-to-end and the other is layer-wise. With these tuning methods, we can regard the image encoder of SAM as a stand-alone vision-language learner in contrast to building another deep fusion branch. Extensive experiments on three highly competitive benchmark datasets of referring image segmentation show that a simple end-to-end DIT improves SAM by a large margin, with layer-wise DIT further boosts the performance to state-of-the-art. Our code is anonymously released at: https://github.com/wysnzzzz/DIT.
- Abstract(参考訳): Segment Anything Model (SAM)は、最近、条件付き画像のセグメンテーションタスクにおいて、強力だが汎用的な機能を示す。
SAMは様々なセグメンテーションプロンプトをサポートできるが、ポイントやボックス誘導セグメンテーションに比べ、テキスト命令されたタスクでははるかにパフォーマンスが悪いことに留意する。
我々は,従来の軽量マスクデコーダにおける浅層融合方式による欠点を緩和するために,深層テキストのチューニングが重要であると論じている。
本稿では,2つのemph{deep instruction tune} (DIT) 法を提案し,一方がエンドツーエンド,もう一方がレイヤワイズである。
これらのチューニング手法により、SAMのイメージエンコーダを、別の深い融合ブランチを構築するのとは対照的に、スタンドアロンの視覚言語学習者と見なすことができる。
画像セグメンテーションの3つの高い競争力のあるベンチマークデータセットに対する大規模な実験により、単純なエンドツーエンドDITはSAMを大きなマージンで改善し、レイヤワイドDITはさらにパフォーマンスを最先端に向上させることが示された。
私たちのコードは匿名で、https://github.com/wysnzz/DIT.comでリリースされています。
関連論文リスト
- Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - MS-UNet-v2: Adaptive Denoising Method and Training Strategy for Medical
Image Segmentation with Small Training Data [17.228264498986295]
本研究では,医用画像分割作業のための新しいU-NetモデルMS-UNetを提案する。
提案したマルチスケールネストデコーダ構造により,デコーダとエンコーダの機能マッピングをセマンティックに近づけることができる。
さらに,MS-UNetのセグメンテーション性能を効果的に向上するだけでなく,他のモデルにも個別に適用できる新しいエッジロスとプラグアンドプレイ細調整モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-07T13:00:27Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Fast Segment Anything [46.130784421779865]
最近提案されたセグメンテーション・アズ・モデル(SAM)は多くのコンピュータビジョンタスクに大きな影響を与えている。
巨大な計算コストは、業界シナリオにおける幅広い応用を妨げる。
本稿では,この基本課題に対して,性能に匹敵する高速化手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T10:08:29Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。