論文の概要: Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2605.22538v1
- Date: Thu, 21 May 2026 14:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.296531
- Title: Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking
- Title(参考訳): 複雑な非線形視覚物体追跡のための運動・幾何学・意味的適応を伴うセグメント
- Authors: Deyi Zhu, Yuji Wang, Yong Liu, Yansong Tang, Bingyao Yu, Jiwen Lu, Jie Zhou,
- Abstract要約: 近年のビジョン基礎モデルはSAM 2で実証されている。
本稿では, SAM 2 を複雑な VOT シナリオに適用する新たなトラッキングフレームワーク SAMOSA を提案する。
- 参考スコア(独自算出の注目度): 81.34609950921023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2, learn strong video understanding priors from large-scale pretraining and offer a promising foundation for building more robust and generalizable trackers. However, directly applying SAM 2 to VOT remains suboptimal, as it does not explicitly model target motion dynamics or enforce geometric and semantic consistency across frames, both of which are essential for reliable tracking. To address this issue, we propose SAMOSA, a new tracking framework that adapts SAM 2 to complex VOT scenarios by explicitly leveraging motion, geometry, and semantic cues. Specifically, we introduce a lightweight nonlinear motion predictor to model target dynamics and guide mask selection as well as memory filtering. We further exploit semantic cues to detect target shifts and recover from tracking failures, while geometric cues are incorporated as structural constraints to improve tracking stability. In this way, SAMOSA bridges the gap between the implicit video understanding prior of SAM 2 and explicit tracking-oriented modeling. Extensive experiments show that SAMOSA consistently outperforms state-of-the-art SAM 2--based approaches on general benchmarks, demonstrates stronger generalization than supervised VOT methods, and achieves substantial gains on anti-UAV datasets, which typify complex nonlinear motion scenarios. Our code is available at https://github.com/DurYi/SAMOSA.
- Abstract(参考訳): 従来の視覚的物体追跡法(VOT)は、通常、タスク固有の教師付きトレーニングに依存し、その一般化を目に見えない物体に限定し、邪魔者、閉塞者、非線形運動を伴う挑戦的なシナリオに制限する。
近年のビジョンファウンデーションモデルはSAM 2で例示され、大規模な事前学習から強力なビデオ理解の先駆者を学び、より堅牢で一般化可能なトラッカーを構築するための有望な基盤を提供する。
しかしながら、SAM 2をVOTに直接適用することは、ターゲット運動力学を明示的にモデル化したり、フレーム間の幾何的および意味的整合性を強制しないため、依然として準最適である。
この問題に対処するために, SAM 2 を複雑な VOT シナリオに適用し, 動き, 幾何学, 意味的手がかりを明示的に活用する新しい追跡フレームワーク SAMOSA を提案する。
具体的には、ターゲット動力学とガイドマスク選択をモデル化し、メモリフィルタリングを行うための軽量非線形運動予測器を提案する。
我々はさらにセマンティック・キューを利用して目標のシフトを検出し、追跡障害から回復する一方、幾何的キューは追跡安定性を改善する構造的制約として組み込まれている。
このように、SAMOSAはSAM 2以前の暗黙のビデオ理解と明示的な追跡指向モデリングのギャップを埋める。
大規模な実験により、SAMOSAは一般的なベンチマークにおいて最先端のSAM 2ベースのアプローチを一貫して上回り、教師付きVOT法よりも強力な一般化を示し、複雑な非線形運動シナリオを典型化する反UAVデータセットにかなりの利益をもたらすことが示されている。
私たちのコードはhttps://github.com/DurYi/SAMOSA.comで公開されています。
関連論文リスト
- Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search [11.772064059088821]
画像・ビデオ生成におけるオブジェクトレベルのモーション編集のためのトレーニング不要なフレームワークであるSearch2Motionを提案する。
トラジェクトリ、バウンディングボックス、マスク、モーションフィールドを必要とする従来の方法とは異なり、Search2Motionはターゲットフレームベースの制御を採用する。
Search2Motion は FLF2V-obj と VBench のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-17T16:02:38Z) - SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking [35.014174355605476]
衛星ビデオにおける単一の物体追跡は、本質的に小さなターゲット、ぼやけた背景、大きなアスペクト比の変化によって挑戦される。
空間的あいまいさと時間的情報損失を緩和する新しい幾何認識および動き誘導型シームズネットワークであるSiamGMを提案する。
SiamGMは計算オーバーヘッドをほとんどなくし、毎秒130フレームのリアルタイムトラッキングを可能にする(FPS)
論文 参考訳(メタデータ) (2026-03-08T10:00:24Z) - DMTrack: Deformable State-Space Modeling for UAV Multi-Object Tracking with Kalman Fusion and Uncertainty-Aware Association [18.68212724411998]
無人航空機(UAV)からの多目的追跡(MOT)は、予測不可能な物体の動きによる固有の課題を提示する。
UAVベースのMOTに適した変形可能なモーショントラッキングフレームワークであるDMTrackを提案する。
本手法は, 外観モデルなしで動作し, 競争効率を保ち, 堅牢なUAVトラッキングの実現性を強調した。
論文 参考訳(メタデータ) (2025-10-15T13:54:25Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。