論文の概要: DELTA: Dense Efficient Long-range 3D Tracking for any video
- arxiv url: http://arxiv.org/abs/2410.24211v1
- Date: Thu, 31 Oct 2024 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:33.779108
- Title: DELTA: Dense Efficient Long-range 3D Tracking for any video
- Title(参考訳): DELTA:どんなビデオでも高効率な長距離3Dトラッキングが可能に
- Authors: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang,
- Abstract要約: アプローチは3次元空間内のすべてのピクセルを効率的に追跡する新しい手法である。
アプローチは大規模に密集した3Dトラッキングを提供し、従来の方法よりも8倍高速に動作します。
- 参考スコア(独自算出の注目度): 82.26753323263009
- License:
- Abstract: Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce \Approach, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of \Approach on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.
- Abstract(参考訳): モノクラービデオから高密度な3Dモーションを追跡することは、特に長いシーケンスでピクセルレベルの精度を目指す場合、依然として難しい。
そこで我々は,3次元空間内のすべてのピクセルを効率よく追跡し,ビデオ全体の正確な動き推定を可能にする,新しい手法である「Approach」を紹介した。
提案手法では,低分解能追跡のためのグローバルアテンション機構と,高分解能予測を実現するためのトランスフォーマーベースアップサンプラーを併用する。
計算の非効率性やスパーストラッキングによって制限された既存の方法とは異なり、‘Approach’は大規模に密集した3Dトラッキングを提供し、従来の方法よりも8倍高速に動作し、最先端の精度を実現している。
さらに,深度表現が追跡性能に与える影響について検討し,ログ深度を最適選択として同定する。
大規模な実験では、複数のベンチマーク上での‘Approach’の優位性が示され、2Dと3Dの密集追跡タスクにおいて、新たな最先端の結果が達成された。
提案手法は,3次元空間における細粒度・長期動作追跡を必要とするアプリケーションに対して,ロバストなソリューションを提供する。
関連論文リスト
- Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。
モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-18T09:34:47Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - 3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。
両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。
深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文 参考訳(メタデータ) (2021-11-21T04:14:45Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - DeepTracking-Net: 3D Tracking with Unsupervised Learning of Continuous
Flow [12.690471276907445]
本論文は3次元追跡の問題,すなわち時間変化の連続した3次元形状における密度の高い対応を見つけることを扱う。
本稿では、ディープニューラルネットワーク(DNN)を補助機能として利用するDeepTracking-Netという、教師なし3次元形状のフレームワークを提案する。
さらに,SynMotionsと呼ばれる新しい合成3Dデータを3D追跡・認識コミュニティに準備する。
論文 参考訳(メタデータ) (2020-06-24T16:20:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。