論文の概要: SAM 3: Segment Anything with Concepts
- arxiv url: http://arxiv.org/abs/2511.16719v1
- Date: Thu, 20 Nov 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.776837
- Title: SAM 3: Segment Anything with Concepts
- Title(参考訳): SAM 3: 概念を持ったセグメンテーション
- Authors: Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, Shoubhik Debnath, Ronghang Hu, Didac Suris, Chaitanya Ryali, Kalyan Vasudev Alwala, Haitham Khedr, Andrew Huang, Jie Lei, Tengyu Ma, Baishan Guo, Arpit Kalla, Markus Marks, Joseph Greer, Meng Wang, Peize Sun, Roman Rädle, Triantafyllos Afouras, Effrosyni Mavroudi, Katherine Xu, Tsung-Han Wu, Yu Zhou, Liliane Momeni, Rishi Hazra, Shuangrui Ding, Sagar Vaze, Francois Porcher, Feng Li, Siyuan Li, Aishwarya Kamath, Ho Kei Cheng, Piotr Dollár, Nikhila Ravi, Kate Saenko, Pengchuan Zhang, Christoph Feichtenhofer,
- Abstract要約: 概念的プロンプトに基づいて画像やビデオ中のオブジェクトを検出し,セグメントを生成し,追跡する統合モデルであるSegment Anything Model(SAM)3を提案する。
PCSはそのようなプロンプトを受け取り、一致するすべてのオブジェクトインスタンスに対してセグメンテーションマスクとIDを返す。
我々のモデルは、画像レベルの検出器と、単一のバックボーンを共有するメモリベースのビデオトラッカーで構成される。
- 参考スコア(独自算出の注目度): 93.97262932669081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Segment Anything Model (SAM) 3, a unified model that detects, segments, and tracks objects in images and videos based on concept prompts, which we define as either short noun phrases (e.g., "yellow school bus"), image exemplars, or a combination of both. Promptable Concept Segmentation (PCS) takes such prompts and returns segmentation masks and unique identities for all matching object instances. To advance PCS, we build a scalable data engine that produces a high-quality dataset with 4M unique concept labels, including hard negatives, across images and videos. Our model consists of an image-level detector and a memory-based video tracker that share a single backbone. Recognition and localization are decoupled with a presence head, which boosts detection accuracy. SAM 3 doubles the accuracy of existing systems in both image and video PCS, and improves previous SAM capabilities on visual segmentation tasks. We open source SAM 3 along with our new Segment Anything with Concepts (SA-Co) benchmark for promptable concept segmentation.
- Abstract(参考訳): 概念的プロンプトに基づいて画像やビデオ中のオブジェクトを検出し,セグメントを生成し,追跡する統合モデルであるSegment Anything Model (SAM) 3を提案する。
Promptable Concept Segmentation (PCS) はそのようなプロンプトを受け取り、一致するすべてのオブジェクトインスタンスに対してセグメンテーションマスクとユニークなIDを返す。
PCSを前進させるために、画像やビデオ間で、4Mのユニークな概念ラベルを含む高品質なデータセットを生成するスケーラブルなデータエンジンを構築します。
我々のモデルは、画像レベルの検出器と、単一のバックボーンを共有するメモリベースのビデオトラッカーで構成される。
認識とローカライゼーションは存在ヘッドと分離され、検出精度が向上する。
SAM 3は、画像とビデオの両方のPCSにおける既存のシステムの精度を2倍にし、ビジュアルセグメンテーションタスクにおける以前のSAM機能を改善する。
私たちはSAM 3と新たなSegment Anything with Concepts(SA-Co)ベンチマークをオープンソースとして公開しています。
関連論文リスト
- ViRefSAM: Visual Reference-Guided Segment Anything Model for Remote Sensing Segmentation [21.953205396218767]
ViRefSAMはSAMをガイドする新しいフレームワークで、いくつかの注釈付き参照イメージしか利用していない。
RS画像にまたがるクラス一貫性オブジェクトの自動セグメンテーションを可能にする。
さまざまなデータセット間で、既存の数ショットセグメンテーションメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2025-07-03T04:06:04Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - Vision and Language Reference Prompt into SAM for Few-shot Segmentation [1.9458156037869137]
Segment Anything Model (SAM)は、柔軟なプロンプトで強力なゼロショット機能を実現する大規模なセグメンテーションモデルである。
注記された参照イメージをSAMへのプロンプトとして入力し、ユーザが提供するプロンプトなしでターゲットイメージ内の特定のオブジェクトをセグメント化することで、これらの問題に対処する。
本稿では,参照画像の視覚情報とテキストラベルのセマンティック情報を利用する,新しい数ショットセグメンテーションモデルであるVision and Language Reference Prompt to SAMを提案する。
論文 参考訳(メタデータ) (2025-02-02T08:40:14Z) - Propagating Semantic Labels in Video Data [0.0]
本研究では,映像中のオブジェクトのセグメンテーションを行う手法を提案する。
ビデオのフレームでオブジェクトが見つかると、セグメントは将来のフレームに伝達される。
この方法はSAMとStructure from Motionを組み合わせることで機能する。
論文 参考訳(メタデータ) (2023-10-01T20:32:26Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。