論文の概要: Explicit Context Reasoning with Supervision for Visual Tracking
- arxiv url: http://arxiv.org/abs/2507.16191v2
- Date: Wed, 20 Aug 2025 02:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 14:45:44.839373
- Title: Explicit Context Reasoning with Supervision for Visual Tracking
- Title(参考訳): ビジュアルトラッキングのためのスーパービジョンを用いた明示的コンテキスト推論
- Authors: Fansheng Zeng, Bineng Zhong, Haiying Xia, Yufei Tan, Xiantao Hu, Liangtao Shi, Shuxiang Song,
- Abstract要約: RSTrackは3つのコアメカニズムを通じてコンテキスト推論を明示的にモデル化し、監督する。
実験の結果,RSTrackは複数のベンチマークデータセット上で最先端のパフォーマンスを実現することがわかった。
- 参考スコア(独自算出の注目度): 10.994387756693417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual reasoning with constraints is crucial for enhancing temporal consistency in cross-frame modeling for visual tracking. However, mainstream tracking algorithms typically associate context by merely stacking historical information without explicitly supervising the association process, making it difficult to effectively model the target's evolving dynamics. To alleviate this problem, we propose RSTrack, which explicitly models and supervises context reasoning via three core mechanisms. \textit{1) Context Reasoning Mechanism}: Constructs a target state reasoning pipeline, converting unconstrained contextual associations into a temporal reasoning process that predicts the current representation based on historical target states, thereby enhancing temporal consistency. \textit{2) Forward Supervision Strategy}: Utilizes true target features as anchors to constrain the reasoning pipeline, guiding the predicted output toward the true target distribution and suppressing drift in the context reasoning process. \textit{3) Efficient State Modeling}: Employs a compression-reconstruction mechanism to extract the core features of the target, removing redundant information across frames and preventing ineffective contextual associations. These three mechanisms collaborate to effectively alleviate the issue of contextual association divergence in traditional temporal modeling. Experimental results show that RSTrack achieves state-of-the-art performance on multiple benchmark datasets while maintaining real-time running speeds. Our code is available at https://github.com/GXNU-ZhongLab/RSTrack.
- Abstract(参考訳): 制約を伴うコンテキスト推論は、視覚的トラッキングのためのクロスフレームモデリングにおける時間的一貫性を高めるために不可欠である。
しかし、主流追跡アルゴリズムは、通常、単に履歴情報を積み重ねることによってコンテキストを関連づけるが、関連プロセスを明示的に監視することはできず、ターゲットの進化するダイナミクスを効果的にモデル化することは困難である。
この問題を軽減するために,3つのコア機構を通じてコンテキスト推論を明示的にモデル化・監督するRSTrackを提案する。
\textit{1 Context Reasoning Mechanism}: ターゲット状態推論パイプラインを構築し、制約のないコンテキスト関連を時間的推論プロセスに変換し、過去のターゲット状態に基づいて現在の表現を予測することにより、時間的一貫性を高める。
\textit{2) Forward Supervision Strategy}: 真のターゲット特徴をアンカーとして利用して推論パイプラインを制約し、予測出力を真のターゲット分布に向けて誘導し、コンテキスト推論プロセスにおけるドリフトを抑制する。
\textit{3 Efficient State Modeling}: 圧縮再構成機構を使用して、ターゲットの中核的な特徴を抽出し、フレーム間で冗長な情報を除去し、非効率的なコンテキスト関連を防止する。
これらの3つのメカニズムは、伝統的な時間的モデリングにおける文脈的関連のばらつきの問題を効果的に緩和するために協力する。
実験結果から,RSTrackはリアルタイム実行速度を維持しながら,複数のベンチマークデータセット上で最先端のパフォーマンスを実現することがわかった。
私たちのコードはhttps://github.com/GXNU-ZhongLab/RSTrack.comから入手可能です。
関連論文リスト
- DeepVIS: Bridging Natural Language and Data Visualization Through Step-wise Reasoning [6.901863663424825]
本稿では,CoT推論を自然言語から可視化(NL2VIS)パイプラインに統合することを提案する。
まず,NL2VISのための包括的CoT推論プロセスを設計し,構造化された推論ステップで既存のデータセットを装備する自動パイプラインを開発する。
第二にnvBench-CoTは、曖昧な自然言語記述から最終的な視覚化まで、ステップバイステップの詳細な推論をキャプチャする特殊なデータセットである。
第3に,CoT推論プロセスと密に統合された対話型ビジュアルインタフェースであるDeepVISを開発する。
論文 参考訳(メタデータ) (2025-08-03T10:04:17Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [11.727693745877486]
フレームとイベントデータを融合するために、スパイキングフレームイベント追跡フレームワークが提案されている。
RPMは位置バイアスのランダム化空間再構成と学習可能な型符号化を除去する。
STR戦略は、潜在空間におけるテンプレート機能間の時間的一貫性を強制する。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - Deflickering Vision-Based Occupancy Networks through Lightweight Spatio-Temporal Correlation [15.726401007342087]
視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。
近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入する可能性がある。
我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合し、パフォーマンスを向上させるための新しいプラグインフレームワークである。
提案手法は,従来の静的および動きの手がかりを効果的に集約し,2つのクロスアテンション機構によって現在の特徴との疎遅延相関を学習し,補正占有成分を生成し,ベースネットワークの予測を洗練させる。
論文 参考訳(メタデータ) (2025-02-21T13:07:45Z) - SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
重み付きクロスアテンションに基づくデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案する。
また、追跡クエリに対する自己中心的な注意の障壁を突破するために、インスタンス対応のContrastive Learningを導入します。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - Introducing Gating and Context into Temporal Action Detection [0.8987776881291144]
時間的行動検出(TAD)は、動作の重なり合いと動作の変動が原因で依然として困難である。
最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。
本稿では,軽量かつ効果的な操作による特徴抽出プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-06T11:52:42Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。