論文の概要: GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture
- arxiv url: http://arxiv.org/abs/2602.14771v1
- Date: Mon, 16 Feb 2026 14:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.458637
- Title: GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture
- Title(参考訳): GOT-JEPA: 統合埋め込み予測アーキテクチャを用いたモデル適応とオクルージョンハンドリングによるジェネリックオブジェクト追跡
- Authors: Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin,
- Abstract要約: 我々は,JEPAを画像特徴予測から追跡モデル予測まで拡張するモデル予測事前学習フレームワークであるGOT-JEPAを提案する。
さらに,物体追跡のためのオクルージョン知覚を高めるためにOccurを提案する。
- 参考スコア(独自算出の注目度): 27.70912792107499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human visual system tracks objects by integrating current observations with previously observed information, adapting to target and scene changes, and reasoning about occlusion at fine granularity. In contrast, recent generic object trackers are often optimized for training targets, which limits robustness and generalization in unseen scenarios, and their occlusion reasoning remains coarse, lacking detailed modeling of occlusion patterns. To address these limitations in generalization and occlusion perception, we propose GOT-JEPA, a model-predictive pretraining framework that extends JEPA from predicting image features to predicting tracking models. Given identical historical information, a teacher predictor generates pseudo-tracking models from a clean current frame, and a student predictor learns to predict the same pseudo-tracking models from a corrupted version of the current frame. This design provides stable pseudo supervision and explicitly trains the predictor to produce reliable tracking models under occlusions, distractors, and other adverse observations, improving generalization to dynamic environments. Building on GOT-JEPA, we further propose OccuSolver to enhance occlusion perception for object tracking. OccuSolver adapts a point-centric point tracker for object-aware visibility estimation and detailed occlusion-pattern capture. Conditioned on object priors iteratively generated by the tracker, OccuSolver incrementally refines visibility states, strengthens occlusion handling, and produces higher-quality reference labels that progressively improve subsequent model predictions. Extensive evaluations on seven benchmarks show that our method effectively enhances tracker generalization and robustness.
- Abstract(参考訳): 人間の視覚システムは、現在の観察を以前観測された情報と統合し、ターゲットやシーンの変化に適応し、きめ細かい粒度の閉塞について推論することで、オブジェクトを追跡する。
対照的に、最近のジェネリックオブジェクトトラッカーは、目に見えないシナリオにおけるロバスト性や一般化を制限するトレーニングターゲットに最適化されることが多く、そのオクルージョン推論はいまだに粗いままであり、オクルージョンパターンの詳細なモデリングが欠如している。
GOT-JEPAは,JEPAを画像特徴予測から追跡モデル予測まで拡張するモデル予測事前学習フレームワークである。
教師予測器は、同一の履歴情報からクリーンな電流フレームから擬似追跡モデルを生成し、生徒予測器は、現在のフレームの破損バージョンから同一の擬似追跡モデルを予測することを学習する。
この設計は、安定した疑似監視を提供し、予測器に対して、閉塞、妨害、その他の有害な観察の下で信頼性の高い追跡モデルを作成するよう明示的に訓練し、動的環境への一般化を改善した。
また,OccuSolverは,OccuSolverを用いて物体追跡の閉塞知覚を高めることを提案する。
OccuSolverは、オブジェクト認識の可視性評価と詳細な閉塞パターンキャプチャにポイント中心のポイントトラッカーを適用する。
OccuSolverは、トラッカーによって反復的に生成されるオブジェクトの事前条件に基づいて、可視性を漸進的に洗練し、オクルージョンハンドリングを強化し、その後のモデル予測を徐々に改善する高品質な参照ラベルを生成する。
本手法はトラッカーの一般化とロバスト性を効果的に向上することを示す。
関連論文リスト
- MASAR: Motion-Appearance Synergy Refinement for Joint Detection and Trajectory Forecasting [2.681087131751672]
MASARは、変換器ベースの任意の3D検出器と互換性のある3D検出軌道予測のための新しいフレームワークである。
MASARは過去の軌跡を予測し、外観的手がかりからガイダンスを用いて精錬することにより、将来の軌跡予測を強化する長期的な時間的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T15:11:50Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [31.995016095663544]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークであるLOPR(Latent Occupancy Prediction)は、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
論文 参考訳(メタデータ) (2024-07-30T18:37:59Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [53.5449912019877]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - PnPNet: End-to-End Perception and Prediction with Tracking in the Loop [82.97006521937101]
我々は、自動運転車の文脈において、共同認識と運動予測の問題に取り組む。
我々は,入力センサデータとしてエンド・ツー・エンドのモデルであるNetを提案し,各ステップのオブジェクト追跡とその将来レベルを出力する。
論文 参考訳(メタデータ) (2020-05-29T17:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。