論文の概要: OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts
- arxiv url: http://arxiv.org/abs/2507.05427v1
- Date: Mon, 07 Jul 2025 19:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.318801
- Title: OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts
- Title(参考訳): OpenWorldSAM: 言語プロンプトによるユニバーサルイメージセグメンテーションのためのSAM2の拡張
- Authors: Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda,
- Abstract要約: OpenWorldSAMは,Segment Anything Model v2 (SAM2) をオープン語彙シナリオに拡張するフレームワークである。
OpenWorldSAMは、カテゴリレベルの言語記述や文レベルの言語記述など、さまざまなプロンプトをサポートしている。
SAM2とVLMの事前学習されたコンポーネントを凍結することにより、COCO-stuffデータセット上で450万のパラメータのみをトレーニングする。
- 参考スコア(独自算出の注目度): 24.969713602245378
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability to segment objects based on open-ended language prompts remains a critical challenge, requiring models to ground textual semantics into precise spatial masks while handling diverse and unseen categories. We present OpenWorldSAM, a framework that extends the prompt-driven Segment Anything Model v2 (SAM2) to open-vocabulary scenarios by integrating multi-modal embeddings extracted from a lightweight vision-language model (VLM). Our approach is guided by four key principles: i) Unified prompting: OpenWorldSAM supports a diverse range of prompts, including category-level and sentence-level language descriptions, providing a flexible interface for various segmentation tasks. ii) Efficiency: By freezing the pre-trained components of SAM2 and the VLM, we train only 4.5 million parameters on the COCO-stuff dataset, achieving remarkable resource efficiency. iii) Instance Awareness: We enhance the model's spatial understanding through novel positional tie-breaker embeddings and cross-attention layers, enabling effective segmentation of multiple instances. iv) Generalization: OpenWorldSAM exhibits strong zero-shot capabilities, generalizing well on unseen categories and an open vocabulary of concepts without additional training. Extensive experiments demonstrate that OpenWorldSAM achieves state-of-the-art performance in open-vocabulary semantic, instance, and panoptic segmentation across multiple benchmarks, including ADE20k, PASCAL, ScanNet, and SUN-RGBD.
- Abstract(参考訳): オープンエンド言語に基づくオブジェクトのセグメンテーションは依然として重要な課題であり、多様で目に見えないカテゴリを扱いながら、テキストのセマンティクスを正確な空間マスクに接地する必要がある。
軽量視覚言語モデル (VLM) から抽出したマルチモーダル埋め込みを統合することにより, オープン語彙のシナリオに, プロンプト駆動型セグメンテーションモデル v2 (SAM2) を拡張したフレームワーク OpenWorldSAM を提案する。
私たちのアプローチには4つの原則があります。
i)統一プロンプト: OpenWorldSAMは、カテゴリレベルや文レベルの言語記述を含む多様なプロンプトをサポートし、様々なセグメンテーションタスクのための柔軟なインターフェイスを提供する。
ii)効率性:SAM2とVLMの事前学習されたコンポーネントを凍結することにより,COCO-stuffデータセット上で450万のパラメータをトレーニングし,優れたリソース効率を実現する。
三 事例認識:新しい位置タイブレーカーの埋め込みと横断アテンション層を通じてモデルの空間的理解を高め、複数のインスタンスの効果的セグメンテーションを可能にする。
iv) 一般化: OpenWorldSAMは強力なゼロショット機能を示し、目に見えないカテゴリと、追加のトレーニングなしで概念のオープンな語彙をうまく一般化する。
大規模な実験により、OpenWorldSAMはオープン語彙のセマンティックや、ADE20k、PASCAL、ScanNet、SUN-RGBDを含む複数のベンチマークで、最先端のパフォーマンスを実現している。
関連論文リスト
- AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。