論文の概要: FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2509.12105v1
- Date: Mon, 15 Sep 2025 16:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.400435
- Title: FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation
- Title(参考訳): FS-SAM2:低ランク適応によるFew-Shot Semantic Segmentationのためのセグメンテーションモデル2の適応
- Authors: Bernardo Forni, Gabriele Lombardi, Federico Pozzi, Mirco Planamente,
- Abstract要約: SAM2(FS-SAM2)に基づくFew-Shotセグメンテーション手法を提案する。
標準データセットで典型的に見られる多様な画像を扱うために,Low-Rank Adaptation (LoRA) を元のモジュールに適用する。
PASCAL-5$i$, COCO-20$i$, FSS-1000データセット上でFS-SAM2を評価する。
- 参考スコア(独自算出の注目度): 1.223288032755885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Few-shot semantic segmentation has recently attracted great attention. The goal is to develop a model capable of segmenting unseen classes using only a few annotated samples. Most existing approaches adapt a pre-trained model by training from scratch an additional module. Achieving optimal performance with these approaches requires extensive training on large-scale datasets. The Segment Anything Model 2 (SAM2) is a foundational model for zero-shot image and video segmentation with a modular design. In this paper, we propose a Few-Shot segmentation method based on SAM2 (FS-SAM2), where SAM2's video capabilities are directly repurposed for the few-shot task. Moreover, we apply a Low-Rank Adaptation (LoRA) to the original modules in order to handle the diverse images typically found in standard datasets, unlike the temporally connected frames used in SAM2's pre-training. With this approach, only a small number of parameters is meta-trained, which effectively adapts SAM2 while benefiting from its impressive segmentation performance. Our method supports any K-shot configuration. We evaluate FS-SAM2 on the PASCAL-5$^i$, COCO-20$^i$ and FSS-1000 datasets, achieving remarkable results and demonstrating excellent computational efficiency during inference. Code is available at https://github.com/fornib/FS-SAM2
- Abstract(参考訳): セマンティックセグメンテーションは近年注目されている。
ゴールは、いくつかのアノテーション付きサンプルを使用して、目に見えないクラスをセグメント化できるモデルを開発することである。
既存のアプローチのほとんどは、追加モジュールをスクラッチからトレーニングすることで、事前トレーニングされたモデルを適用する。
これらのアプローチで最適なパフォーマンスを達成するには、大規模なデータセットの広範なトレーニングが必要である。
Segment Anything Model 2 (SAM2) はゼロショット画像とビデオセグメンテーションの基本モデルである。
本稿では,SAM2(FS-SAM2)に基づくFew-Shotセグメンテーション手法を提案する。
さらに、SAM2の事前トレーニングで使用される時間的に接続されたフレームとは異なり、標準データセットで典型的に見られる多様な画像を扱うために、ローランド適応(LoRA)を元のモジュールに適用する。
このアプローチでは,少数のパラメータのみをメタトレーニングし,SAM2を効果的に適用すると同時に,セグメンテーション性能も向上する。
我々の方法はどんなKショット構成もサポートします。
本研究では, PASCAL-5$^i$, COCO-20$^i$, FSS-1000データセット上でFS-SAM2を評価し, 予測において優れた計算効率を示す。
コードはhttps://github.com/fornib/FS-SAM2で公開されている。
関連論文リスト
- Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild [38.94246183524246]
本稿では,参照対象画像ペア間の固有対応を擬似ビデオとして表現する手法を提案する。
この観点により、SAM2として知られるSAMの最新バージョンは、ダウンストリームタスクに軽量に適応できる。
我々はこのアプローチをSAM(CAV-SAM)のためのビデオとして対応づける。
論文 参考訳(メタデータ) (2025-08-11T08:42:49Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation [22.482211353379927]
大型ビジョンモデルであるAnythingCube Model 2 (SAM2)は、画像とビデオの両方でゼロショットセグメンテーション性能が強い。
ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。
私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
論文 参考訳(メタデータ) (2025-03-09T17:33:15Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T17:00:08Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。