論文の概要: Unlocking the Power of SAM 2 for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2505.14100v1
- Date: Tue, 20 May 2025 09:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.951683
- Title: Unlocking the Power of SAM 2 for Few-Shot Segmentation
- Title(参考訳): Few-ShotセグメンテーションのためのSAM 2のパワーアンロック
- Authors: Qianxiong Xu, Lanyun Zhu, Xuanyi Liu, Guosheng Lin, Cheng Long, Ziyue Li, Rui Zhao,
- Abstract要約: Few-Shot (FSS) は、少数のクラスでクラスに依存しないセグメンテーションを学習し、任意のクラスをセグメンテーションすることを目的としている。
近年、SAM 2は、クラスに依存しないマッチング能力を持つビデオセグメンテーションをサポートしてSAMを拡張している。
擬似クエリメモリを符号化するPseudo Prompt Generatorを設計し、クエリ機能と互換性のある方法でマッチングする。
さらに、メモリにより多くのクエリFG機能を融合させる反復メモリリファインメントを設計し、メモリの予期せぬクエリBG機能を抑制するためのサポートキャリブレーションメモリアテンションを考案する。
- 参考スコア(独自算出の注目度): 54.562050590453225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Segmentation (FSS) aims to learn class-agnostic segmentation on few classes to segment arbitrary classes, but at the risk of overfitting. To address this, some methods use the well-learned knowledge of foundation models (e.g., SAM) to simplify the learning process. Recently, SAM 2 has extended SAM by supporting video segmentation, whose class-agnostic matching ability is useful to FSS. A simple idea is to encode support foreground (FG) features as memory, with which query FG features are matched and fused. Unfortunately, the FG objects in different frames of SAM 2's video data are always the same identity, while those in FSS are different identities, i.e., the matching step is incompatible. Therefore, we design Pseudo Prompt Generator to encode pseudo query memory, matching with query features in a compatible way. However, the memories can never be as accurate as the real ones, i.e., they are likely to contain incomplete query FG, and some unexpected query background (BG) features, leading to wrong segmentation. Hence, we further design Iterative Memory Refinement to fuse more query FG features into the memory, and devise a Support-Calibrated Memory Attention to suppress the unexpected query BG features in memory. Extensive experiments have been conducted on PASCAL-5$^i$ and COCO-20$^i$ to validate the effectiveness of our design, e.g., the 1-shot mIoU can be 4.2\% better than the best baseline.
- Abstract(参考訳): Few-Shot Segmentation (FSS) は、クラス非依存のセグメンテーションを学習し、任意のクラスをセグメンテーションすることを目的としている。
これを解決するために、いくつかの手法では基礎モデルの知識(SAMなど)を使って学習プロセスを単純化する。
近年、SAM 2は、クラスに依存しないマッチング能力を持つビデオセグメンテーションをサポートしてSAMを拡張している。
単純なアイデアは、FG機能にマッチして融合するクエリをメモリとしてサポートフォアグラウンド(FG)機能をエンコードすることである。
残念なことに、SAM 2のビデオデータの異なるフレーム内のFGオブジェクトは常に同一のIDであり、FSS内のオブジェクトは異なるID、すなわちマッチングステップは互換性がない。
そこで我々は擬似クエリメモリを符号化するPseudo Prompt Generatorを設計した。
しかしながら、メモリは実際のメモリほど正確ではない、すなわち、不完全なクエリFGといくつかの予期せぬクエリバックグラウンド(BG)機能を含んでいて、誤ったセグメンテーションにつながる可能性がある。
これにより、メモリにより多くのクエリFG機能を融合する反復メモリリファインメントを設計し、メモリ内の予期せぬクエリBG機能を抑制するためのサポートキャリブレーションメモリアテンションを考案する。
PASCAL-5$^i$ および COCO-20$^i$ を用いて大規模な実験を行い,設計の有効性を検証した。
関連論文リスト
- MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation [22.482211353379927]
大型ビジョンモデルであるAnythingCube Model 2 (SAM2)は、画像とビデオの両方でゼロショットセグメンテーション性能が強い。
ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。
私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
論文 参考訳(メタデータ) (2025-03-09T17:33:15Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - Eliminating Feature Ambiguity for Few-Shot Segmentation [95.9916573435427]
マイクロショットセグメンテーション(FSS)の最近の進歩は、クエリとサポート機能の間のピクセル間マッチングを利用してきた。
本稿では,既存のクロスアテンションベースのFSS手法に接続可能な,新しいアンビグニティ除去ネットワーク(AENet)を提案する。
論文 参考訳(メタデータ) (2024-07-13T10:33:03Z) - Self-Calibrated Cross Attention Network for Few-Shot Segmentation [65.20559109791756]
我々は、パッチベースの効率的なアテンションのために、自己校正型クロスアテンション(SCCA)ブロックを設計する。
SCCAは、同じクエリイメージからのパッチと、サポートイメージからのアライメントパッチをK&Vとしてグループ化する。
このようにして、クエリBG機能はFGをサポートするBG機能と混同され、前述の問題が軽減される。
論文 参考訳(メタデータ) (2023-08-18T04:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。