論文の概要: Online Dense Point Tracking with Streaming Memory
- arxiv url: http://arxiv.org/abs/2503.06471v1
- Date: Sun, 09 Mar 2025 06:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:54.920171
- Title: Online Dense Point Tracking with Streaming Memory
- Title(参考訳): ストリーミングメモリを用いたオンラインDense Point Tracking
- Authors: Qiaole Dong, Yanwei Fu,
- Abstract要約: デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
- 参考スコア(独自算出の注目度): 54.22820729477756
- License:
- Abstract: Dense point tracking is a challenging task requiring the continuous tracking of every point in the initial frame throughout a substantial portion of a video, even in the presence of occlusions. Traditional methods use optical flow models to directly estimate long-range motion, but they often suffer from appearance drifting without considering temporal consistency. Recent point tracking algorithms usually depend on sliding windows for indirect information propagation from the first frame to the current one, which is slow and less effective for long-range tracking. To account for temporal consistency and enable efficient information propagation, we present a lightweight and fast model with \textbf{S}treaming memory for dense \textbf{PO}int \textbf{T}racking and online video processing. The \textbf{SPOT} framework features three core components: a customized memory reading module for feature enhancement, a sensory memory for short-term motion dynamics modeling, and a visibility-guided splatting module for accurate information propagation. This combination enables SPOT to perform dense point tracking with state-of-the-art accuracy on the CVO benchmark, as well as comparable or superior performance to offline models on sparse tracking benchmarks such as TAP-Vid and RoboTAP. Notably, SPOT with 10$\times$ smaller parameter numbers operates at least 2$\times$ faster than previous state-of-the-art models while maintaining the best performance on CVO. We will release the models and codes at: https://github.com/DQiaole/SPOT.
- Abstract(参考訳): Dense Point Trackingは、ビデオのかなりの部分を通して、たとえオクルージョンが存在する場合でも、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
従来の方法では、遠距離運動を直接推定するために光学フローモデルを使用するが、時間的一貫性を考慮せずに外見の漂流に悩まされることが多い。
最近の点追跡アルゴリズムは、通常、第1フレームから現在のフレームへの間接的な情報伝達のためのスライディングウインドウに依存する。
本稿では,高密度な \textbf{PO}int \textbf{T}racking とオンラインビデオ処理のための, 時間的整合性を考慮した軽量かつ高速なメモリモデルを提案する。
\textbf{SPOT} フレームワークには,機能拡張のためのメモリ読み取りモジュール,短期動作のダイナミックスモデリングのためのセンサメモリ,正確な情報伝達のための可視性誘導スプレイティングモジュールという,3つのコアコンポーネントがある。
この組み合わせにより、SPOTはCVOベンチマークで最先端の精度で高密度な点追跡を実行でき、TAP-VidやRoboTAPのようなスパース追跡ベンチマークでオフラインモデルに匹敵するあるいは優れた性能を持つ。
特に、10$\times$小さなパラメータ番号を持つSPOTは、CVO上で最高のパフォーマンスを維持しながら、以前の最先端モデルよりも少なくとも2$\times$高速に動作します。
https://github.com/DQiaole/SPOT.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s
関連論文リスト
- Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文 参考訳(メタデータ) (2025-01-30T17:04:11Z) - P2P: Part-to-Part Motion Cues Guide a Strong Tracking Framework for LiDAR Point Clouds [11.30412146387686]
外観マッチングに基づく3次元物体追跡法は,LiDAR点雲による外観情報の不十分さに長年悩まされてきた。
連続点雲に対するパート・ツー・パートのモーション・モデリングを提案し,textbfP2Pと呼ばれる新しいトラッキング・フレームワークを提案する。
本稿では,P2P-pointとP2P-voxelモデルについて述べる。
論文 参考訳(メタデータ) (2024-07-07T02:37:24Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。