Fugu-MT 論文翻訳(概要): RAP-SAM: Towards Real-Time All-Purpose Segment Anything

論文の概要: RAP-SAM: Towards Real-Time All-Purpose Segment Anything

arxiv url: http://arxiv.org/abs/2401.10228v1
Date: Thu, 18 Jan 2024 18:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:24:57.438744
Title: RAP-SAM: Towards Real-Time All-Purpose Segment Anything
Title（参考訳）: RAP-SAM: リアルタイム全目的セグメンテーションを目指す
Authors: Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, Ming-Hsuan Yang
Abstract要約: Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
参考スコア（独自算出の注目度）: 120.17175256421622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advanced by transformer architecture, vision foundation models (VFMs) achieve remarkable progress in performance and generalization ability. Segment Anything Model (SAM) is one remarkable model that can achieve generalized segmentation. However, most VFMs cannot run in realtime, which makes it difficult to transfer them into several products. On the other hand, current real-time segmentation mainly has one purpose, such as semantic segmentation on the driving scene. We argue that diverse outputs are needed for real applications. Thus, this work explores a new real-time segmentation setting, named all-purpose segmentation in real-time, to transfer VFMs in real-time deployment. It contains three different tasks, including interactive segmentation, panoptic segmentation, and video segmentation. We aim to use one model to achieve the above tasks in real-time. We first benchmark several strong baselines. Then, we present Real-Time All Purpose SAM (RAP-SAM). It contains an efficient encoder and an efficient decoupled decoder to perform prompt-driven decoding. Moreover, we further explore different training strategies and tuning methods to boost co-training performance further. Our code and model are available at https://github.com/xushilin1/RAP-SAM/.
Abstract（参考訳）: トランスフォーマーアーキテクチャにより、視覚基礎モデル(VFM)は、性能と一般化能力の著しい進歩を達成する。 Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。しかしながら、ほとんどのVFMはリアルタイムで動作できないため、複数の製品に転送することは困難である。一方、現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。実際のアプリケーションには多様なアウトプットが必要です。そこで本研究では,リアルタイムにVFMを転送する全目的セグメンテーションという,新たなリアルタイムセグメンテーション設定を提案する。インタラクティブセグメンテーション、パン光学セグメンテーション、ビデオセグメンテーションを含む3つの異なるタスクを含む。 1つのモデルを使用して、上記のタスクをリアルタイムで達成することを目指している。まず、いくつかの強力なベースラインをベンチマークします。次に、実時間全目的SAM(RAP-SAM)を提案する。効率的なエンコーダと、プロンプト駆動デコーダを実行するための効率的なデカップリングデコーダを含む。さらに,コトレーニング性能を高めるために,異なるトレーニング戦略やチューニング手法についても検討する。私たちのコードとモデルはhttps://github.com/xushilin1/RAP-SAM/で公開されています。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-16T17:55:38Z)
SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文参考訳（メタデータ） (2024-08-01T17:00:08Z)
Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文参考訳（メタデータ） (2024-04-18T17:59:53Z)
The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文参考訳（メタデータ） (2024-04-15T08:32:18Z)
OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。 OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-01-18T18:59:34Z)
TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文参考訳（メタデータ） (2023-12-21T12:26:11Z)
You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。 BDD100kデータセットで競合的な結果が得られます。
論文参考訳（メタデータ） (2023-10-02T21:09:43Z)
Fast Segment Anything [46.130784421779865]
最近提案されたセグメンテーション・アズ・モデル(SAM)は多くのコンピュータビジョンタスクに大きな影響を与えている。巨大な計算コストは、業界シナリオにおける幅広い応用を妨げる。本稿では,この基本課題に対して,性能に匹敵する高速化手法を提案する。
論文参考訳（メタデータ） (2023-06-21T10:08:29Z)
DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文参考訳（メタデータ） (2023-04-13T16:57:02Z)
BURST: A Benchmark for Unifying Object Recognition, Segmentation and Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文参考訳（メタデータ） (2022-09-25T01:27:35Z)
Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-11T05:44:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。