Fugu-MT 論文翻訳(概要): DELTA: Dense Efficient Long-range 3D Tracking for any video

論文の概要: DELTA: Dense Efficient Long-range 3D Tracking for any video

arxiv url: http://arxiv.org/abs/2410.24211v2
Date: Fri, 01 Nov 2024 17:23:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.98491
Title: DELTA: Dense Efficient Long-range 3D Tracking for any video
Title（参考訳）: DELTA:どんなビデオでも高効率な長距離3Dトラッキングが可能に
Authors: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang,
Abstract要約: DELTAは3次元空間内のすべてのピクセルを効率よく追跡し,ビデオ全体の正確な動き推定を可能にする手法である。提案手法では,低分解能追跡のためのグローバルアテンション機構と,高分解能予測を実現するためのトランスフォーマーベースアップサンプラーを併用する。提案手法は,3次元空間における細粒度・長期動作追跡を必要とするアプリケーションに対して,ロバストなソリューションを提供する。
参考スコア（独自算出の注目度）: 82.26753323263009
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce DELTA, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, DELTA delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of DELTA on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.
Abstract（参考訳）: モノクラービデオから高密度な3Dモーションを追跡することは、特に長いシーケンスでピクセルレベルの精度を目指す場合、依然として難しい。 DELTAは3次元空間内のすべてのピクセルを効率よく追跡し,ビデオ全体の正確な動き推定を可能にする手法である。提案手法では,低分解能追跡のためのグローバルアテンション機構と,高分解能予測を実現するためのトランスフォーマーベースアップサンプラーを併用する。計算不効率やスパーストラッキングによって制限された既存の手法とは異なり、DELTAは大規模に密集した3Dトラッキングを提供し、従来の手法よりも8倍高速に動作し、最先端の精度を実現している。さらに,深度表現が追跡性能に与える影響について検討し,ログ深度を最適選択として同定する。複数のベンチマーク上でのDELTAの優位性を実証し、2次元および3次元密集追跡タスクにおいて新しい最先端結果を達成する。提案手法は,3次元空間における細粒度・長期動作追跡を必要とするアプリケーションに対して,ロバストなソリューションを提供する。

関連論文リスト

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels [67.36972154532761]
モノクロビデオから各ピクセルの3D軌跡を推定することは重要であり、ビデオの3Dダイナミックスを包括的に理解する上で有望である。最近のモノラルな3D追跡作業は印象的な性能を示しているが、第1フレーム上のスパースポイントのトラッキングや、高密度トラッキングのための遅い最適化ベースのフレームワークに限られている。そこで我々は,Track4Worldと呼ばれるフィードフォワードモデルを提案し,世界中心座標系における全画素の効率的な3D追跡を可能にする。
論文参考訳（メタデータ） (2026-03-03T03:45:43Z)
Surg-InvNeRF: Invertible NeRF for 3D tracking and reconstruction in surgical vision [3.7908123458994107]
InvNeRFアーキテクチャは手術シナリオにおける2Dと3Dの両方の追跡に使用される。 2Dポイントトラッキングでは,TTO手法の精度と精度を平均精度で50%近く上回っている。 3Dポイントトラッキングでは、これは最初のTTOアプローチであり、フィードフォワード法を超越し、変形可能なNeRFベースの再構成の利点を取り入れている。
論文参考訳（メタデータ） (2025-08-13T10:20:24Z)
GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking [11.436294975354556]
GRASPTrackはモノクロ深度推定とインスタンスセグメンテーションを標準TBDパイプラインに統合する新しいMOTフレームワークである。これらの3D点雲は、精密で堅牢なVoxel-based 3D Intersection-over-Unionを可能にするために酸化される。
論文参考訳（メタデータ） (2025-08-11T15:56:21Z)
DELTAv2: Accelerating Dense 3D Tracking [79.63990337419514]
本稿では,ビデオ中の高密度3次元点追跡を高速化するための新しいアルゴリズムを提案する。極小点の小さな部分集合で追跡を開始し、トラックされた軌道の集合を段階的に拡大する粗大な戦略を導入する。新たに追加されたトラジェクトリは学習可能なモジュールを使用しており、トラッキングネットワークとともにエンドツーエンドでトレーニングされている。
論文参考訳（メタデータ） (2025-08-02T03:15:47Z)
TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.357437591411347]
本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。 TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。以上の結果から,カメラモーションの補正によりトラッキング性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-20T19:09:43Z)
Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-18T17:59:12Z)
Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-18T09:34:47Z)
TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文参考訳（メタデータ） (2024-07-08T13:28:47Z)
3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文参考訳（メタデータ） (2021-11-21T04:14:45Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。この2つのタスクを同一のメトリック空間で統一するモデルを提案する。提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-17T05:11:38Z)
Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文参考訳（メタデータ） (2020-12-22T22:43:35Z)
DeepTracking-Net: 3D Tracking with Unsupervised Learning of Continuous Flow [12.690471276907445]
本論文は3次元追跡の問題,すなわち時間変化の連続した3次元形状における密度の高い対応を見つけることを扱う。本稿では、ディープニューラルネットワーク(DNN)を補助機能として利用するDeepTracking-Netという、教師なし3次元形状のフレームワークを提案する。さらに,SynMotionsと呼ばれる新しい合成3Dデータを3D追跡・認識コミュニティに準備する。
論文参考訳（メタデータ） (2020-06-24T16:20:48Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。