論文の概要: Deep Instruction Tuning for Segment Anything Model
- arxiv url: http://arxiv.org/abs/2404.00650v2
- Date: Sat, 27 Apr 2024 07:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 22:56:04.187922
- Title: Deep Instruction Tuning for Segment Anything Model
- Title(参考訳): セグメンテーションモデルのためのディープインストラクションチューニング
- Authors: Xiaorui Huang, Gen Luo, Chaoyang Zhu, Bo Tong, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: Segment Anything Model (SAM) はマルチメディアとコンピュータビジョンの分野で研究ホットスポットとなっている。
SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、テキストで指示されたタスクでは、はるかに悪化する。
SAMのための2つの簡易かつ効果的なディープ・インストラクション・チューニング(DIT)手法を提案し,その1つはエンドツーエンドであり、もう1つはレイヤワイズである。
- 参考スコア(独自算出の注目度): 68.7934961590075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Segment Anything Model (SAM) has become a research hotspot in the fields of multimedia and computer vision, which exhibits powerful yet versatile capabilities on various (un) conditional image segmentation tasks. Although SAM can support different types of segmentation prompts, we note that, compared to point- and box-guided segmentations, it performs much worse on text-instructed tasks, e.g., referring image segmentation (RIS). In this paper, we argue that deep text instruction tuning is key to mitigate such shortcoming caused by the shallow fusion scheme in its default light-weight mask decoder. To address this issue, we propose two simple yet effective deep instruction tuning (DIT) methods for SAM, one is end-to-end and the other is layer-wise. With minimal modifications, DITs can directly transform the image encoder of SAM as a stand-alone vision-language learner in contrast to building another deep fusion branch, maximizing the benefit of its superior segmentation capability. Extensive experiments on three highly competitive benchmark datasets of RIS show that a simple end-to-end DIT can improve SAM by a large margin, while the layer-wise DIT can further boost the performance to state-of-the-art with much less data and training expenditures. Our code is released at: https://github.com/wysnzzzz/DIT.
- Abstract(参考訳): 近年,Segment Anything Model (SAM) はマルチメディアやコンピュータビジョンの分野で研究のホットスポットとなっている。
SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、ポイントやボックス誘導セグメンテーションと比較して、テキストで指示されたタスク、例えば、画像セグメンテーション(RIS)において、はるかにパフォーマンスが悪いことに留意する。
本稿では,従来の軽量マスクデコーダにおける浅層融合方式による欠点を軽減するために,深層テキストのチューニングが重要であることを論じる。
この問題に対処するために、SAMのための2つの単純かつ効果的な深層命令チューニング(DIT)手法を提案し、一方はエンドツーエンドで、もう一方は層ワイズである。
最小限の変更で、DITはSAMのイメージエンコーダを直接スタンドアロンの視覚言語学習者として変換できる。
RISの3つの高い競争力のあるベンチマークデータセットに関する大規模な実験によると、単純なエンドツーエンドのDITはSAMを大きなマージンで改善できる一方で、レイヤワイドのDITは、より少ないデータとトレーニング費で、最先端のDITのパフォーマンスをさらに向上させることができる。
私たちのコードは、https://github.com/wysnzz/DIT.comでリリースされています。
関連論文リスト
- MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - MS-UNet-v2: Adaptive Denoising Method and Training Strategy for Medical
Image Segmentation with Small Training Data [17.228264498986295]
本研究では,医用画像分割作業のための新しいU-NetモデルMS-UNetを提案する。
提案したマルチスケールネストデコーダ構造により,デコーダとエンコーダの機能マッピングをセマンティックに近づけることができる。
さらに,MS-UNetのセグメンテーション性能を効果的に向上するだけでなく,他のモデルにも個別に適用できる新しいエッジロスとプラグアンドプレイ細調整モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-07T13:00:27Z) - Fast Segment Anything [46.130784421779865]
最近提案されたセグメンテーション・アズ・モデル(SAM)は多くのコンピュータビジョンタスクに大きな影響を与えている。
巨大な計算コストは、業界シナリオにおける幅広い応用を妨げる。
本稿では,この基本課題に対して,性能に匹敵する高速化手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T10:08:29Z) - DeSAM: Decoupled Segment Anything Model for Generalizable Medical Image Segmentation [22.974876391669685]
Segment Anything Model (SAM) は、医用画像セグメンテーションのクロスドメインロバスト性を改善する可能性を示している。
SAMは手動でトリガーする時よりも、自動セグメンテーションのシナリオで大幅にパフォーマンスが低下する。
Decoupled SAMはSAMのマスクデコーダを2つの新しいモジュールを導入して変更する。
論文 参考訳(メタデータ) (2023-06-01T09:49:11Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。