Fugu-MT 論文翻訳(概要): SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising

論文の概要: SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising

arxiv url: http://arxiv.org/abs/2403.04194v1
Date: Thu, 7 Mar 2024 03:52:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 15:12:45.998175
Title: SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising
Title（参考訳）: SAM-PD:SAMがプロンプトのデノイングでビデオ中のあらゆるものを追跡し、セグメンテーションするのにどれくらいの時間がかかるか
Authors: Tao Zhou, Wenhan Luo, Qi Ye, Zhiguo Shi, Jiming Chen
Abstract要約: ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
参考スコア（独自算出の注目度）: 37.216493829454706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, promptable segmentation models, such as the Segment Anything Model (SAM), have demonstrated robust zero-shot generalization capabilities on static images. These promptable models exhibit denoising abilities for imprecise prompt inputs, such as imprecise bounding boxes. In this paper, we explore the potential of applying SAM to track and segment objects in videos where we recognize the tracking task as a prompt denoising task. Specifically, we iteratively propagate the bounding box of each object's mask in the preceding frame as the prompt for the next frame. Furthermore, to enhance SAM's denoising capability against position and size variations, we propose a multi-prompt strategy where we provide multiple jittered and scaled box prompts for each object and preserve the mask prediction with the highest semantic similarity to the template mask. We also introduce a point-based refinement stage to handle occlusions and reduce cumulative errors. Without involving tracking modules, our approach demonstrates comparable performance in video object/instance segmentation tasks on three datasets: DAVIS2017, YouTubeVOS2018, and UVO, serving as a concise baseline and endowing SAM-based downstream applications with tracking capabilities.
Abstract（参考訳）: 近年,segment anything model (sam) などのプロンプトブルセグメンテーションモデルでは,静的画像に対するロバストなゼロショット一般化が実現されている。これらのプロンプトモデルでは、不正確なバウンディングボックスなど、不正確なプロンプト入力のデノイジング能力を示す。本稿では,追跡タスクを瞬時に発生するタスクとして認識するビデオにおけるオブジェクトの追跡とセグメンテーションにsamを適用する可能性について検討する。具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクの境界ボックスを反復的に伝播する。さらに,SAMの位置や大きさの変動に対する認知能力を高めるために,複数のジッタリングおよび拡張ボックスプロンプトを各オブジェクトに対して提供し,テンプレートマスクに最もセマンティックな類似性でマスク予測を保持するマルチプロンプト戦略を提案する。また,オクルージョンの処理や累積誤差の低減を目的としたポイントベースリファインメントステージも導入する。 DAVIS2017、YouTubeVOS2018、UVOの3つのデータセット上で、トラッキングモジュールを伴わずに、ビデオオブジェクト/インスタンスセグメンテーションタスクで同等のパフォーマンスを示し、簡潔なベースラインとして機能し、トラッキング機能を備えたSAMベースのダウンストリームアプリケーションを提供する。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文参考訳（メタデータ） (2025-02-10T18:33:15Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes [18.244508068200236]
Crowd-SAMは、混み合ったシーンでSAMのパフォーマンスを高めるために設計されたフレームワークである。混み合ったシーンにおけるマスク選択と精度を高めるために,効率的なプロンプトサンプリング (EPS) とPWD-Net (Part-whole discrimination network) を導入する。 Crowd-SAMは、CrowdHumanやCityPersonsなどいくつかのベンチマークにおいて、最先端のSOTA(State-of-the-art)と競合する。
論文参考訳（メタデータ） (2024-07-16T08:00:01Z)
SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention [0.0]
Segment Anything Model (SAM) は画像セグメンテーションにおける異常な性能で注目されている。カモフラージュされた物体は一般的に背景に溶け込み、静止画では区別が難しい。これらの課題を克服するために,SAMスパイダーモジュール (SAM-PM) と呼ばれる新しい手法を提案する。本手法は,SAMのパラメータの1%未満の追加で,時間的一貫性とドメイン固有の専門知識をセグメンテーションネットワークに効果的に組み込む。
論文参考訳（メタデータ） (2024-06-09T14:33:38Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文参考訳（メタデータ） (2023-09-13T05:05:47Z)
Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。 DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文参考訳（メタデータ） (2023-07-03T17:58:01Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model [5.632631449489529]
Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、新しい可能性を提供している。本稿では,STD-Netトラッカーを用いたUVOSのマスクフリーパラダイムであるUVOSAMを提案する。 STD-Netは、フレーム内特徴とフレーム間特徴の効果的な相関を確立するために、空間的・時間的疎結合な変形可能なアテンション機構を組み込んでいる。
論文参考訳（メタデータ） (2023-05-22T03:03:29Z)
Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。 PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。 PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文参考訳（メタデータ） (2023-05-04T17:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。