論文の概要: SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost
- arxiv url: http://arxiv.org/abs/2506.01304v1
- Date: Mon, 02 Jun 2025 04:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.029352
- Title: SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost
- Title(参考訳): SAM-I2V: トレーニングコスト0.2%未満でプロンプタブルビデオセグメンテーションをサポートするSAMのアップグレード
- Authors: Haiyang Mei, Pengyu Zhang, Mike Zheng Shou,
- Abstract要約: 本稿では,PVSモデルを構築するための画像と映像の効果的なアップグレード手法であるSAM-I2Vを紹介する。
我々のアプローチでは、事前訓練されたSAMをPVSをサポートするよう戦略的にアップグレードし、トレーニングの複雑さとリソース要求を大幅に削減する。
- 参考スコア(独自算出の注目度): 23.51101492249404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models like the Segment Anything Model (SAM) have significantly advanced promptable image segmentation in computer vision. However, extending these capabilities to videos presents substantial challenges, particularly in ensuring precise and temporally consistent mask propagation in dynamic scenes. SAM 2 attempts to address this by training a model on massive image and video data from scratch to learn complex spatiotemporal associations, resulting in huge training costs that hinder research and practical deployment. In this paper, we introduce SAM-I2V, an effective image-to-video upgradation method for cultivating a promptable video segmentation (PVS) model. Our approach strategically upgrades the pre-trained SAM to support PVS, significantly reducing training complexity and resource requirements. To achieve this, we introduce three key innovations: (i) an image-to-video feature extraction upgrader built upon SAM's static image encoder to enable spatiotemporal video perception, (ii) a memory filtering strategy that selects the most relevant past frames for more effective utilization of historical information, and (iii) a memory-as-prompt mechanism leveraging object memory to ensure temporally consistent mask propagation in dynamic scenes. Comprehensive experiments demonstrate that our method achieves over 90% of SAM 2's performance while using only 0.2% of its training cost. Our work presents a resource-efficient pathway to PVS, lowering barriers for further research in PVS model design and enabling broader applications and advancements in the field. Code and model are available at: https://github.com/showlab/SAM-I2V.
- Abstract(参考訳): Segment Anything Model (SAM) のような基礎モデルでは、コンピュータビジョンにおいて、画像セグメンテーションが大幅に進歩している。
しかし、これらの機能をビデオに拡張することは、特にダイナミックシーンにおける正確かつ時間的に一貫したマスクの伝播を保証する上で、重大な課題となる。
SAM 2は、大量の画像とビデオデータをスクラッチからトレーニングして、複雑な時空間的関連を学習することでこの問題に対処しようとする。
本稿では,PVSモデルを構築するための画像と映像の効果的なアップグレード手法であるSAM-I2Vを紹介する。
我々のアプローチでは、事前訓練されたSAMをPVSをサポートするよう戦略的にアップグレードし、トレーニングの複雑さとリソース要求を大幅に削減する。
これを実現するために、私たちは3つの重要なイノベーションを紹介します。
(i)SAMの静的画像エンコーダ上に構築された画像間特徴抽出アップグレード器により、時空間映像の知覚を可能にする。
二 履歴情報のより効果的な活用のために、最も関連性の高い過去のフレームを選択するメモリフィルタリング戦略
三 動的シーンにおける時間的に一貫したマスクの伝搬を確保するためにオブジェクトメモリを活用するメモリ・アズ・プロンプト機構。
包括的実験により,本手法がSAM2の性能の90%以上を達成できる一方で,トレーニングコストの0.2%しか利用できないことが示された。
本研究は,資源効率の高いPVSへの経路を示し,PVSモデル設計におけるさらなる研究の障壁を低くし,この分野の幅広い応用と進歩を可能にする。
コードとモデルは、https://github.com/showlab/SAM-I2V.comで入手できる。
関連論文リスト
- SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes [30.870903750545004]
本稿では,テキスト,音声,視覚表現を学習可能なトークンに統合する新しいフレームワークSAM2-LOVEを紹介する。
技術的には、SAM2のマルチモーダル理解を改善することを目的としたマルチモーダル融合モジュールを含む。
SAM2-LOVEは、Ref-AVSベンチマークにおいて、$calmathJ&F$において、SOTAよりも8.5%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-02T11:36:25Z) - Rethinking Few-Shot Medical Image Segmentation by SAM2: A Training-Free Framework with Augmentative Prompting and Dynamic Matching [4.1253497486581026]
我々は,従来のスライス・バイ・スライス・パラダイムから離れて,3次元医用画像のボリュームをビデオシーケンスとして概念化する。
単一のラベル付きサポートイメージに対して広範なデータ拡張を行い、クエリボリュームの各フレームに対して、最も類似したサポートイメージをアルゴリズムで選択する。
ベンチマーク数ショットの医用画像セグメンテーションデータセットの最先端性能を実証し、精度とアノテーション効率を大幅に改善した。
論文 参考訳(メタデータ) (2025-03-05T06:12:13Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。
セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。
本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文 参考訳(メタデータ) (2024-07-31T02:24:53Z) - Generalizable Visual Reinforcement Learning with Segment Anything Model [28.172477166023697]
一般化可能なビジュアルRL(SAM-G)のためのセグメンテーションモデルを提案する。
SAM-Gは、Segment Anything Model(SAM)の迅速なセグメンテーション能力を利用して、視覚的RLエージェントの一般化能力を向上する新しいフレームワークである。
8つのDMControlタスクと3つのAdroitタスクで評価され、SAM-GはRLエージェントのアーキテクチャを変更することなく、観察だけをすることなく、視覚的一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-12-28T16:53:23Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Selective Volume Mixup for Video Action Recognition [89.67716672312358]
本稿では,限られたトレーニングビデオを用いた深層モデルの一般化能力を向上させるために,選択ボリューム混合(SV-Mix)と呼ばれる新しいビデオ拡張戦略を提案する。
SV-Mixは、2つのビデオから最も情報性の高いボリュームを選択するための学習可能な選択モジュールを考案し、新しいトレーニングビデオを達成するためにボリュームをミックスする。
SV-Mix拡張の利点を幅広いビデオアクション認識ベンチマークで実証的に実証した。
論文 参考訳(メタデータ) (2023-09-18T07:26:58Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。