論文の概要: KV-Tracker: Real-Time Pose Tracking with Transformers
- arxiv url: http://arxiv.org/abs/2512.22581v1
- Date: Sat, 27 Dec 2025 13:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.121687
- Title: KV-Tracker: Real-Time Pose Tracking with Transformers
- Title(参考訳): KV-Tracker: トランスフォーマーを用いたリアルタイムポストラッキング
- Authors: Marwan Taher, Ignacio Alzugaray, Kirill Mazur, Xin Kong, Andrew J. Davison,
- Abstract要約: マルチビュー3D幾何ネットワークは強力だが、リアルタイムアプリケーションでは極めて遅い。
モノラルなRGBビデオからオブジェクトやシーンをリアルタイムに6-DoFのポーズトラッキングとオンライン再構築を可能にする新しい方法を提案する。
- 参考スコア(独自算出の注目度): 30.32327636560028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view 3D geometry networks offer a powerful prior but are prohibitively slow for real-time applications. We propose a novel way to adapt them for online use, enabling real-time 6-DoF pose tracking and online reconstruction of objects and scenes from monocular RGB videos. Our method rapidly selects and manages a set of images as keyframes to map a scene or object via $π^3$ with full bidirectional attention. We then cache the global self-attention block's key-value (KV) pairs and use them as the sole scene representation for online tracking. This allows for up to $15\times$ speedup during inference without the fear of drift or catastrophic forgetting. Our caching strategy is model-agnostic and can be applied to other off-the-shelf multi-view networks without retraining. We demonstrate KV-Tracker on both scene-level tracking and the more challenging task of on-the-fly object tracking and reconstruction without depth measurements or object priors. Experiments on the TUM RGB-D, 7-Scenes, Arctic and OnePose datasets show the strong performance of our system while maintaining high frame-rates up to ${\sim}27$ FPS.
- Abstract(参考訳): マルチビュー3D幾何ネットワークは強力だが、リアルタイムアプリケーションでは極めて遅い。
モノラルなRGBビデオからオブジェクトやシーンをリアルタイムに6-DoFのポーズトラッキングとオンライン再構築を可能にする新しい方法を提案する。
本手法では,画像の集合をキーフレームとして迅速に選択・管理し,π^3$でシーンやオブジェクトのマッピングを行う。
次に、グローバルな自己注意ブロックのキー値(KV)ペアをキャッシュし、オンライントラッキングのための唯一のシーン表現として使用します。
これにより、ドリフトや破滅的な忘れ物を恐れることなく、推論中に最大15\times$のスピードアップが可能になる。
我々のキャッシュ戦略はモデルに依存しず、再トレーニングなしに他の市販のマルチビューネットワークに適用できる。
我々は、KV-Trackerをシーンレベルのトラッキングと、深度測定や被写体先行を使わずに、オンザフライでの物体追跡と再構成のより困難なタスクの両方で実証する。
TUM RGB-D, 7-Scenes, Arctic, OnePoseのデータセットによる実験では,高いフレームレートを最大${\sim}27$ FPSで維持しながら,システムの性能が向上した。
関連論文リスト
- Repurposing Video Diffusion Transformers for Robust Point Tracking [35.486648006768256]
既存のメソッドは、フレームを独立して処理するResNetのような浅い畳み込みバックボーンに依存している。
ビデオトランスフォーマー(DiT)は本質的に、強力な点追跡能力を持ち、動的動作を頑健に扱う。
本研究は,ポイントトラッキングの有効かつ効率的な基盤として,ビデオDiT機能を検証する。
論文 参考訳(メタデータ) (2025-12-23T18:54:10Z) - Multi-View 3D Point Tracking [67.21282192436031]
本稿では,複数のカメラビューを用いた動的シーンにおける任意の点の追跡を目的とした,データ駆動型マルチビュー3Dポイントトラッカーについて紹介する。
本モデルでは,現実的な数のカメラを用いて直接3次元対応を推定する。
我々は5K合成多視点Kubricシーケンスをトレーニングし、2つの実世界のベンチマークで評価する。
論文 参考訳(メタデータ) (2025-08-28T17:58:20Z) - SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - SIRE: SE(3) Intrinsic Rigidity Embeddings [16.630400019100943]
本稿では,オブジェクトの動作発見とシーンの動的再構築のための自己教師型手法であるSIREを紹介する。
本手法では,画像エンコーダを用いてシーンの剛性と形状を推定し,簡単な4次元再構成損失によって教師される。
以上の結果から,SIREは映像データから強い幾何や動きの剛性を,最小限の監督で学習できることが示唆された。
論文 参考訳(メタデータ) (2025-03-10T18:00:30Z) - DynOMo: Online Point Tracking by Dynamic Online Monocular Gaussian Reconstruction [65.46359561104867]
モノクラーカメラ入力からのオンライン2Dおよび3Dポイントトラッキングの課題を対象としている。
我々は3Dガウススプラッティングを利用して動的シーンをオンラインに再構築する。
我々は,オンラインのポイントトラッキングとリコンストラクションを推進し,様々な現実のシナリオに適用可能にすることを目的としている。
論文 参考訳(メタデータ) (2024-09-03T17:58:03Z) - Memory-based Adapters for Online 3D Scene Perception [71.71645534899905]
従来の3Dシーン認識手法はオフラインである。
本稿では,3次元シーン認識モデルのバックボーンのためのアダプタベースのプラグアンドプレイモジュールを提案する。
私たちのアダプタは、さまざまなタスクのメインストリームのオフラインアーキテクチャに簡単に挿入でき、オンラインタスクのパフォーマンスを大幅に向上できます。
論文 参考訳(メタデータ) (2024-03-11T17:57:41Z) - Real-time 3D Deep Multi-Camera Tracking [13.494550690138775]
本稿では,DMCT(Deep Multi-Camera Tracking)を提案する。
本システムは,リアルタイム性能を維持しつつ,最先端のトラッキング結果を実現する。
論文 参考訳(メタデータ) (2020-03-26T06:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。