Fugu-MT 論文翻訳(概要): SpatialTracker: Tracking Any 2D Pixels in 3D Space

論文の概要: SpatialTracker: Tracking Any 2D Pixels in 3D Space

arxiv url: http://arxiv.org/abs/2404.04319v1
Date: Fri, 5 Apr 2024 17:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 23:27:22.537072
Title: SpatialTracker: Tracking Any 2D Pixels in 3D Space
Title（参考訳）: SpaceTracker:3D空間における2D画像の追跡
Authors: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou,
Abstract要約: 本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。 3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
参考スコア（独自算出の注目度）: 71.58016288648447
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recovering dense and long-range pixel motion in videos is a challenging problem. Part of the difficulty arises from the 3D-to-2D projection process, leading to occlusions and discontinuities in the 2D motion domain. While 2D motion can be intricate, we posit that the underlying 3D motion can often be simple and low-dimensional. In this work, we propose to estimate point trajectories in 3D space to mitigate the issues caused by image projection. Our method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth estimators, represents the 3D content of each frame efficiently using a triplane representation, and performs iterative updates using a transformer to estimate 3D trajectories. Tracking in 3D allows us to leverage as-rigid-as-possible (ARAP) constraints while simultaneously learning a rigidity embedding that clusters pixels into different rigid parts. Extensive evaluation shows that our approach achieves state-of-the-art tracking performance both qualitatively and quantitatively, particularly in challenging scenarios such as out-of-plane rotation.
Abstract（参考訳）: ビデオで高密度で長距離のピクセルの動きを再現することは、難しい問題だ。難易度の一部は3次元から2次元への投影過程から生じ、2次元運動領域における閉塞と不連続をもたらす。 2次元運動は複雑にできるが、基礎となる3次元運動は単純で低次元であることが多いと仮定する。本研究では,画像投影による問題を軽減するために,3次元空間における点軌道の推定を提案する。提案手法はSpatialTrackerと呼ばれ, 単眼深度推定器を用いて2次元画素を3次元に上げ, 3次元平面表現を用いて各フレームの3次元コンテンツを効率よく表現し, トランスフォーマーを用いて反復的な更新を行い, 3次元軌跡を推定する。 3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。広範囲な評価により, 航空機外回転のような難易度の高いシナリオにおいて, 定性的かつ定量的に, 最先端の追跡性能を達成できることが示唆された。

関連論文リスト

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels [67.36972154532761]
モノクロビデオから各ピクセルの3D軌跡を推定することは重要であり、ビデオの3Dダイナミックスを包括的に理解する上で有望である。最近のモノラルな3D追跡作業は印象的な性能を示しているが、第1フレーム上のスパースポイントのトラッキングや、高密度トラッキングのための遅い最適化ベースのフレームワークに限られている。そこで我々は,Track4Worldと呼ばれるフィードフォワードモデルを提案し,世界中心座標系における全画素の効率的な3D追跡を可能にする。
論文参考訳（メタデータ） (2026-03-03T03:45:43Z)
TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels [49.456225518469516]
モノクロ3Dトラッキングは、単一のモノクロビデオから3D空間内のピクセルの長期的な動きをキャプチャすることを目的としている。本研究では,世界中心の3D座標系において,ほぼすべての画素の高密度3D追跡のための新しいパイプラインであるTrackingWorldを提案する。
論文参考訳（メタデータ） (2025-12-09T08:35:42Z)
SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文参考訳（メタデータ） (2025-07-16T17:59:03Z)
Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos [71.24593306228145]
本研究では,2次元モデルから層状放射場への運動分割予測を融合させることにより,3次元の動的セグメンテーションを改善することを提案する。テスト時間の改善によってこの問題に対処し、モデルが特定のフレームに集中できるようにし、データの複雑さを軽減します。このことは、3D技術が挑戦的で現実的な環境での動的現象に対しても2次元解析を向上できることを証明している。
論文参考訳（メタデータ） (2025-06-05T19:46:48Z)
TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.357437591411347]
本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。 TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。以上の結果から,カメラモーションの補正によりトラッキング性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-20T19:09:43Z)
Street Gaussians without 3D Object Tracker [86.62329193275916]
既存の方法は、標準空間における動的オブジェクトを再構築するために、オブジェクトポーズの労働集約的な手動ラベリングに依存している。本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文参考訳（メタデータ） (2024-12-07T05:49:42Z)
Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文参考訳（メタデータ） (2023-04-13T11:32:36Z)
XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文参考訳（メタデータ） (2022-10-06T15:54:01Z)
DM-NeRF: 3D Scene Geometry Decomposition and Manipulation from 2D Images [15.712721653893636]
DM-NeRFは、1つのパイプラインで複雑な3Dシーンを同時に再構築、分解、操作、レンダリングする最初のものである。提案手法は,3次元オブジェクトを2次元ビューから正確に分解し,任意のオブジェクトを3次元空間で自由に操作することができる。
論文参考訳（メタデータ） (2022-08-15T14:32:10Z)
3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文参考訳（メタデータ） (2021-11-21T04:14:45Z)
Accelerate 3D Object Processing via Spectral Layout [1.52292571922932]
本稿では,3次元オブジェクトに重要な情報を2次元空間に包含する手法を提案する。提案手法は3Dオブジェクトに対して高品質な2D表現を実現し,3Dオブジェクトの処理に2Dベースの手法を用いることができる。
論文参考訳（メタデータ） (2021-10-25T03:18:37Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)
RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文参考訳（メタデータ） (2020-01-10T08:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。