論文の概要: Boosting Segment Anything Model Towards Open-Vocabulary Learning
- arxiv url: http://arxiv.org/abs/2312.03628v1
- Date: Wed, 6 Dec 2023 17:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:12:05.312299
- Title: Boosting Segment Anything Model Towards Open-Vocabulary Learning
- Title(参考訳): Open-Vocabulary Learningに向けたセグメンテーションモデルの構築
- Authors: Xumeng Han, Longhui Wei, Xuehui Yu, Zhiyang Dou, Xin He, Kuiran Wang,
Zhenjun Han, Qi Tian
- Abstract要約: Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
- 参考スコア(独自算出の注目度): 69.42565443181017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent Segment Anything Model (SAM) has emerged as a new paradigmatic
vision foundation model, showcasing potent zero-shot generalization and
flexible prompting. Despite SAM finding applications and adaptations in various
domains, its primary limitation lies in the inability to grasp object
semantics. In this paper, we present Sambor to seamlessly integrate SAM with
the open-vocabulary object detector in an end-to-end framework. While retaining
all the remarkable capabilities inherent to SAM, we enhance it with the
capacity to detect arbitrary objects based on human inputs like category names
or reference expressions. To accomplish this, we introduce a novel SideFormer
module that extracts SAM features to facilitate zero-shot object localization
and inject comprehensive semantic information for open-vocabulary recognition.
In addition, we devise an open-set region proposal network (Open-set RPN),
enabling the detector to acquire the open-set proposals generated by SAM.
Sambor demonstrates superior zero-shot performance across benchmarks, including
COCO and LVIS, proving highly competitive against previous SoTA methods. We
aspire for this work to serve as a meaningful endeavor in endowing SAM to
recognize diverse object categories and advancing open-vocabulary learning with
the support of vision foundation models.
- Abstract(参考訳): 最近のSegment Anything Model (SAM)は、強力なゼロショット一般化とフレキシブルプロンプトを示す新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
本稿では,Samborを用いて,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合する。
SAM固有の特筆すべき機能をすべて保持しながら、カテゴリ名や参照式といった人間の入力に基づいて任意のオブジェクトを検出する能力を強化します。
そこで本研究では,ゼロショットオブジェクトのローカライゼーションを容易にし,オープン語彙認識のための包括的意味情報を注入するSideFormerモジュールを提案する。
さらに、オープンセット領域提案ネットワーク(Open-set RPN)を考案し、SAMによって生成されたオープンセットの提案を取得する。
Sambor はCOCO や LVIS などベンチマーク全体で優れたゼロショット性能を示し、従来の SoTA メソッドと高い競争力を示した。
本研究は,多様な対象カテゴリの認識と,視覚基盤モデルのサポートによるオープン語彙学習の促進にSAMを貢献する上で,意義ある取り組みとなることを目的としている。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - VRP-SAM: SAM with Visual Reference Prompt [75.80412480849276]
そこで我々は,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案する。
本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。
論文 参考訳(メタデータ) (2024-02-27T17:58:09Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes
Interactively [74.14385081185459]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model
(SAM) [9.150553995510217]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation [16.83885487855187]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に整合させ、融合させるために、パラメータ効率のチューニング戦略を用いる。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。