論文の概要: UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
- arxiv url: http://arxiv.org/abs/2511.13714v1
- Date: Mon, 17 Nov 2025 18:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.697636
- Title: UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
- Title(参考訳): UnSAMv2: 自己監督型学習はどんな粒度でもセグメンテーションを可能にする
- Authors: Junwei Yu, Trevor Darrell, XuDong Wang,
- Abstract要約: 人間のアノテーションなしでどんな粒度でもセグメンテーションできるUnSAMv2を紹介します。
UnSAMv2は、マスクと粒度のペアを豊富に発見することで、UnSAMの分割・対戦略を拡張している。
粒度を意識した自己教師付き学習手法により,少量のラベル付きデータが視覚基礎モデルの可能性を解き放つことを示す。
- 参考スコア(独自算出の注目度): 54.41309926099154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only $6$K unlabeled images and $0.02\%$ additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over $11$ benchmarks, UnSAMv2 improves $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1), and $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.
- Abstract(参考訳): Segment Anything Model (SAM) ファミリーは広く採用されているビジョン基盤モデルであるが、セグメンテーションの粒度を制御する能力は依然として限られている。
ユーザは多くの場合、望ましい詳細レベルを達成するために、手動で結果(プロンプトの追加や前生成マスクの選択など)を洗練する必要がある。
このプロセスは、同じプロンプトがいくつかのプラウチブルマスクに対応する可能性があるため曖昧であり、すべての粒度にわたる密集アノテーションの収集は違法に高価であり、教師付き解は実現不可能である。
この制限に対処するため、人間のアノテーションなしでどんな粒度でもセグメント化できるUnSAMv2を導入します。
UnSAMv2は、マスクとグラニュラリティのペアを豊富に発見し、セグメンテーションスケールを正確に連続的に制御できる新しい粒度制御の埋め込みを導入することで、UnSAMの分断戦略を拡張している。
注目すべきは、ラベル付きイメージが6ドル、追加パラメータが0.02$%しかないことで、UnSAMv2はSAM-2を大幅に強化し、対話的、全体像、ビデオセグメンテーションタスクの粒度であらゆるセグメンテーションを達成する。
11ドル以上のベンチマークで評価されたUnSAMv2は、$\text{NoC}_{90}$ (5.69$\rightarrow$ 4.75), 1-IoU (58.0$\rightarrow$ 73.1), $\text{AR}_{1000}$ (49.6$\rightarrow$ 68.3) を改良し、粒度を意識した自己教師付き学習手法によって少量のラベル付きデータが視覚基礎モデルの可能性を解き放つことを示した。
関連論文リスト
- Segment Anything without Supervision [65.93211374889196]
高速かつ自動的な全画像分割のためのUnsupervised SAM(UnSAM)を提案する。
UnSAMは、視覚シーンの階層構造を「発見」するために、分割・コンカ戦略を利用する。
教師付きSAMは自己教師付きラベルの恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:47:32Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - $\mathrm{SAM^{Med}}$: A medical image annotation framework based on
large vision model [23.095778923771732]
大規模ビジョンモデル、Segment Anything Model (SAM)はコンピュータビジョン分野に革命をもたらした。
本研究では,医用画像アノテーションのための拡張フレームワークである$mathrmSAMMed$を提案する。
その結果,入力点が5点程度しかなく,セグメンテーション精度が著しく向上した。
論文 参考訳(メタデータ) (2023-07-11T03:00:22Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。