論文の概要: SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
- arxiv url: http://arxiv.org/abs/2411.11922v1
- Date: Mon, 18 Nov 2024 05:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:51.576759
- Title: SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
- Title(参考訳): 佐村井:モーションアウェアメモリを用いたゼロショット視覚追跡のためのセグメンテーションモデル
- Authors: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang,
- Abstract要約: 本稿では,視覚的物体追跡に特化して設計されたSAM 2を改良したSAmuraiを紹介する。
提案した動き認識メモリ選択機構に時間的動作手がかりを組み込むことで、物体の動きを効果的に予測し、マスク選択を洗練し、トレーニングや微調整を必要とせず、堅牢で正確なトラッキングを実現する。
評価では、既存のトラッカーよりも成功率と精度が大幅に向上し、LaSOT$_ext$で7.1%、GOT-10kで3.5%向上した。
- 参考スコア(独自算出の注目度): 23.547018300192065
- License:
- Abstract: The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in object segmentation tasks but faces challenges in visual object tracking, particularly when managing crowded scenes with fast-moving or self-occluding objects. Furthermore, the fixed-window memory approach in the original model does not consider the quality of memories selected to condition the image features for the next frame, leading to error propagation in videos. This paper introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for visual object tracking. By incorporating temporal motion cues with the proposed motion-aware memory selection mechanism, SAMURAI effectively predicts object motion and refines mask selection, achieving robust, accurate tracking without the need for retraining or fine-tuning. SAMURAI operates in real-time and demonstrates strong zero-shot performance across diverse benchmark datasets, showcasing its ability to generalize without fine-tuning. In evaluations, SAMURAI achieves significant improvements in success rate and precision over existing trackers, with a 7.1% AUC gain on LaSOT$_{\text{ext}}$ and a 3.5% AO gain on GOT-10k. Moreover, it achieves competitive results compared to fully supervised methods on LaSOT, underscoring its robustness in complex tracking scenarios and its potential for real-world applications in dynamic environments. Code and results are available at https://github.com/yangchris11/samurai.
- Abstract(参考訳): Segment Anything Model 2 (SAM2) は、オブジェクトセグメンテーションタスクにおいて強力なパフォーマンスを示してきたが、特に高速移動や自己排他的なオブジェクトを伴う混雑したシーンの管理において、視覚的オブジェクト追跡の課題に直面している。
さらに、元のモデルにおける固定ウィンドウメモリのアプローチは、次のフレームのイメージ特徴を条件付けるために選択されたメモリの品質を考慮せず、ビデオのエラー伝搬につながる。
本稿では,視覚的物体追跡に特化して設計されたSAM 2を改良したSAmuraiを紹介する。
提案した動き認識メモリ選択機構に時間的動作手がかりを組み込むことで、物体の動きを効果的に予測し、マスク選択を洗練し、トレーニングや微調整を必要とせず、堅牢で正確なトラッキングを実現する。
SAmuraiはリアルタイムで動作し、多様なベンチマークデータセット間で強力なゼロショット性能を示し、微調整なしで一般化する能力を示している。
評価では、SAmuraiは既存のトラッカーよりも成功率と精度が大幅に向上し、LaSOT$_{\text{ext}}$が7.1%、GOT-10kが3.5%向上した。
さらに、LaSOTの完全教師付き手法と比較して、複雑なトラッキングシナリオにおける堅牢性と、動的環境における現実世界のアプリケーションの可能性を示す競合的な結果が得られる。
コードと結果はhttps://github.com/yangchris11/samurai.comで公開されている。
関連論文リスト
- A Distractor-Aware Memory for Visual Object Tracking with SAM2 [11.864619292028278]
メモリベースのトラッカー(英: Memory-based tracker)は、最近追跡されたフレームをメモリバッファに連結し、現在の画像をバッファされたフレームに到達させることでターゲットをローカライズすることにより、ターゲットモデルを形成するビデオオブジェクトセグメンテーション手法である。
SAM2.1++はSAM2.1と関連するSAMメモリ拡張を7つのベンチマークで上回り、6つのベンチマークで新しい最先端を設定できる。
論文 参考訳(メタデータ) (2024-11-26T16:41:09Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - SAM 2 in Robotic Surgery: An Empirical Evaluation for Robustness and Generalization in Surgical Video Segmentation [13.609341065893739]
本研究では,ロボット支援手術におけるSAM2のゼロショットセグメンテーション性能について,プロンプトに基づく検討を行った。
1点とバウンディングボックスの2種類のプロンプトを使用し、ビデオシーケンスでは1点プロンプトを初期フレームに適用する。
ポイントプロンプトによる結果はSAMの能力よりも大幅に向上し、既存の未進展SOTAメソッドに近づいたり超えたりしている。
論文 参考訳(メタデータ) (2024-08-08T17:08:57Z) - RobustSAM: Segment Anything Robustly on Degraded Images [19.767828436963317]
Segment Anything Model (SAM) は画像セグメンテーションにおける変換的アプローチとして登場した。
低画質画像におけるSAMの性能を向上させるRobust Segment Anything Model (RobustSAM)を提案する。
提案手法は, SAMに基づくダウンストリームタスクにおいて, 単一画像のデハージングやデブロアリングなどの性能を効果的に向上することを目的としている。
論文 参考訳(メタデータ) (2024-06-13T23:33:59Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。