論文の概要: RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything
- arxiv url: http://arxiv.org/abs/2401.10228v2
- Date: Fri, 28 Feb 2025 01:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:38:19.661233
- Title: RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything
- Title(参考訳): RMP-SAM: リアルタイム多目的セグメントの実現に向けて
- Authors: Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, Ming-Hsuan Yang,
- Abstract要約: この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。
インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。
動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。
効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
- 参考スコア(独自算出の注目度): 117.02741621686677
- License:
- Abstract: Recent segmentation methods, which adopt large-scale data training and transformer architecture, aim to create one foundation model that can perform multiple tasks. However, most of these methods rely on heavy encoder and decoder frameworks, hindering their performance in real-time scenarios. To explore real-time segmentation, recent advancements primarily focus on semantic segmentation within specific environments, such as autonomous driving. However, they often overlook the generalization ability of these models across diverse scenarios. Therefore, to fill this gap, this work explores a novel real-time segmentation setting called real-time multi-purpose segmentation. It contains three fundamental sub-tasks: interactive segmentation, panoptic segmentation, and video instance segmentation. Unlike previous methods, which use a specific design for each task, we aim to use only a single end-to-end model to accomplish all these tasks in real-time. To meet real-time requirements and balance multi-task learning, we present a novel dynamic convolution-based method, Real-Time Multi-Purpose SAM (RMP-SAM). It contains an efficient encoder and an efficient decoupled adapter to perform prompt-driven decoding. Moreover, we further explore different training strategies and one new adapter design to boost co-training performance further. We benchmark several strong baselines by extending existing works to support our multi-purpose segmentation. Extensive experiments demonstrate that RMP-SAM is effective and generalizes well on proposed benchmarks and other specific semantic tasks. Our implementation of RMP-SAM achieves the optimal balance between accuracy and speed for these tasks.Our code and model are available at https://github.com/xushilin1/RAP-SAM/.
- Abstract(参考訳): 大規模データトレーニングとトランスフォーマーアーキテクチャを採用した最近のセグメンテーション手法は、複数のタスクを実行できる1つの基礎モデルを作ることを目指している。
しかし、これらの手法のほとんどは重いエンコーダとデコーダフレームワークに依存しており、リアルタイムシナリオにおけるパフォーマンスを妨げている。
リアルタイムセグメンテーションを探求するために、最近の進歩は主に自律運転のような特定の環境におけるセグメンテーションに焦点を当てている。
しかし、それらは様々なシナリオにまたがってこれらのモデルの一般化能力を見落としていることが多い。
そこで本研究では,このギャップを埋めるために,リアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。
各タスクに特定の設計を使用する従来の方法とは異なり、我々は、これらのタスクを全てリアルタイムで実行するために、単一のエンドツーエンドモデルのみを使用することを目標としています。
リアルタイム要求を満たし,マルチタスク学習のバランスをとるために,動的畳み込みに基づく新しい手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。
効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
さらに,コトレーニング性能を高めるために,異なるトレーニング戦略と新しいアダプタ設計についても検討する。
多目的セグメンテーションをサポートするために既存の作業を拡張することで、いくつかの強力なベースラインをベンチマークします。
広範囲な実験により、RMP-SAMは提案されたベンチマークやその他の特定の意味タスクに対して有効であり、よく一般化されていることが示されている。
我々のコードとモデルはhttps://github.com/xushilin1/RAP-SAM/で公開されている。
関連論文リスト
- SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T17:00:08Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - Fast Segment Anything [46.130784421779865]
最近提案されたセグメンテーション・アズ・モデル(SAM)は多くのコンピュータビジョンタスクに大きな影響を与えている。
巨大な計算コストは、業界シナリオにおける幅広い応用を妨げる。
本稿では,この基本課題に対して,性能に匹敵する高速化手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T10:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。