論文の概要: Deep Instruction Tuning for Segment Anything Model
- arxiv url: http://arxiv.org/abs/2404.00650v2
- Date: Sat, 27 Apr 2024 07:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 22:56:04.187922
- Title: Deep Instruction Tuning for Segment Anything Model
- Title(参考訳): セグメンテーションモデルのためのディープインストラクションチューニング
- Authors: Xiaorui Huang, Gen Luo, Chaoyang Zhu, Bo Tong, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: Segment Anything Model (SAM) はマルチメディアとコンピュータビジョンの分野で研究ホットスポットとなっている。
SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、テキストで指示されたタスクでは、はるかに悪化する。
SAMのための2つの簡易かつ効果的なディープ・インストラクション・チューニング(DIT)手法を提案し,その1つはエンドツーエンドであり、もう1つはレイヤワイズである。
- 参考スコア(独自算出の注目度): 68.7934961590075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Segment Anything Model (SAM) has become a research hotspot in the fields of multimedia and computer vision, which exhibits powerful yet versatile capabilities on various (un) conditional image segmentation tasks. Although SAM can support different types of segmentation prompts, we note that, compared to point- and box-guided segmentations, it performs much worse on text-instructed tasks, e.g., referring image segmentation (RIS). In this paper, we argue that deep text instruction tuning is key to mitigate such shortcoming caused by the shallow fusion scheme in its default light-weight mask decoder. To address this issue, we propose two simple yet effective deep instruction tuning (DIT) methods for SAM, one is end-to-end and the other is layer-wise. With minimal modifications, DITs can directly transform the image encoder of SAM as a stand-alone vision-language learner in contrast to building another deep fusion branch, maximizing the benefit of its superior segmentation capability. Extensive experiments on three highly competitive benchmark datasets of RIS show that a simple end-to-end DIT can improve SAM by a large margin, while the layer-wise DIT can further boost the performance to state-of-the-art with much less data and training expenditures. Our code is released at: https://github.com/wysnzzzz/DIT.
- Abstract(参考訳): 近年,Segment Anything Model (SAM) はマルチメディアやコンピュータビジョンの分野で研究のホットスポットとなっている。
SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、ポイントやボックス誘導セグメンテーションと比較して、テキストで指示されたタスク、例えば、画像セグメンテーション(RIS)において、はるかにパフォーマンスが悪いことに留意する。
本稿では,従来の軽量マスクデコーダにおける浅層融合方式による欠点を軽減するために,深層テキストのチューニングが重要であることを論じる。
この問題に対処するために、SAMのための2つの単純かつ効果的な深層命令チューニング(DIT)手法を提案し、一方はエンドツーエンドで、もう一方は層ワイズである。
最小限の変更で、DITはSAMのイメージエンコーダを直接スタンドアロンの視覚言語学習者として変換できる。
RISの3つの高い競争力のあるベンチマークデータセットに関する大規模な実験によると、単純なエンドツーエンドのDITはSAMを大きなマージンで改善できる一方で、レイヤワイドのDITは、より少ないデータとトレーニング費で、最先端のDITのパフォーマンスをさらに向上させることができる。
私たちのコードは、https://github.com/wysnzz/DIT.comでリリースされています。
関連論文リスト
- Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - MS-UNet-v2: Adaptive Denoising Method and Training Strategy for Medical
Image Segmentation with Small Training Data [17.228264498986295]
本研究では,医用画像分割作業のための新しいU-NetモデルMS-UNetを提案する。
提案したマルチスケールネストデコーダ構造により,デコーダとエンコーダの機能マッピングをセマンティックに近づけることができる。
さらに,MS-UNetのセグメンテーション性能を効果的に向上するだけでなく,他のモデルにも個別に適用できる新しいエッジロスとプラグアンドプレイ細調整モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-07T13:00:27Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Fast Segment Anything [46.130784421779865]
最近提案されたセグメンテーション・アズ・モデル(SAM)は多くのコンピュータビジョンタスクに大きな影響を与えている。
巨大な計算コストは、業界シナリオにおける幅広い応用を妨げる。
本稿では,この基本課題に対して,性能に匹敵する高速化手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T10:08:29Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。