論文の概要: SAM 2: Segment Anything in Images and Videos
- arxiv url: http://arxiv.org/abs/2408.00714v1
- Date: Thu, 1 Aug 2024 17:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:47:32.128037
- Title: SAM 2: Segment Anything in Images and Videos
- Title(参考訳): SAM 2: 画像とビデオのセグメンテーション
- Authors: Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer,
- Abstract要約: 本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
- 参考スコア(独自算出の注目度): 63.44869623822368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Segment Anything Model 2 (SAM 2), a foundation model towards solving promptable visual segmentation in images and videos. We build a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. Our model is a simple transformer architecture with streaming memory for real-time video processing. SAM 2 trained on our data provides strong performance across a wide range of tasks. In video segmentation, we observe better accuracy, using 3x fewer interactions than prior approaches. In image segmentation, our model is more accurate and 6x faster than the Segment Anything Model (SAM). We believe that our data, model, and insights will serve as a significant milestone for video segmentation and related perception tasks. We are releasing a version of our model, the dataset and an interactive demo.
- Abstract(参考訳): 本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
データに基づいてトレーニングされたSAM 2は、幅広いタスクにわたって強力なパフォーマンスを提供します。
ビデオセグメンテーションでは,従来の手法よりも3倍少ないインタラクションを用いて,精度が向上する。
画像分割では,Segment Anything Model (SAM) よりも精度が高く,6倍高速である。
私たちは、私たちのデータ、モデル、洞察が、ビデオセグメンテーションと関連する知覚タスクにとって重要なマイルストーンとなると信じています。
モデルのバージョン、データセット、インタラクティブなデモをリリースしています。
関連論文リスト
- Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [86.29839352757922]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation [16.83885487855187]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に整合させ、融合させるために、パラメータ効率のチューニング戦略を用いる。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Learning to "Segment Anything" in Thermal Infrared Images through
Knowledge Distillation with a Large Scale Dataset SATIR [15.198798677908615]
Segment Anything Model(SAM)は、Meta AIが最近導入した、プロンプト可能なセグメンテーションモデルである。
熱赤外画像セグメンテーションタスクの事前訓練にSAMを用いて擬似ラベルを生成するフレームワークを提案する。
我々のフレームワークはSAMのような大規模データで訓練されたモデルと協調して特殊分野の問題に対処するための新しいアプローチを提示している。
論文 参考訳(メタデータ) (2023-04-17T03:27:10Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Monocular Instance Motion Segmentation for Autonomous Driving: KITTI
InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。
自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。
我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文 参考訳(メタデータ) (2020-08-16T21:47:09Z) - Evolution of Image Segmentation using Deep Convolutional Neural Network:
A Survey [0.0]
我々はCNNに基づくセマンティックとインスタンスセグメンテーションの両方の進化を垣間見る。
我々は、最先端のパン光学セグメンテーションモデルを垣間見せた。
論文 参考訳(メタデータ) (2020-01-13T06:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。