論文の概要: SceneTracker: Long-term Scene Flow Estimation Network
- arxiv url: http://arxiv.org/abs/2403.19924v4
- Date: Fri, 23 May 2025 01:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.373842
- Title: SceneTracker: Long-term Scene Flow Estimation Network
- Title(参考訳): SceneTracker: 長期のシーンフロー推定ネットワーク
- Authors: Bo Wang, Jian Li, Yang Yu, Li Liu, Zhenping Sun, Dewen Hu,
- Abstract要約: 長期シーンフロー推定(LSFE)は、細粒度と長期の3D動作を同時にオンライン的にキャプチャできる包括的タスクである。
SceneTrackerは、最適な3次元軌道を近似するために反復的なアプローチを採用する最初のLSFEネットワークである。
- 参考スコア(独自算出の注目度): 22.110827510373877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Considering that scene flow estimation has the capability of the spatial domain to focus but lacks the coherence of the temporal domain, this study proposes long-term scene flow estimation (LSFE), a comprehensive task that can simultaneously capture the fine-grained and long-term 3D motion in an online manner. We introduce SceneTracker, the first LSFE network that adopts an iterative approach to approximate the optimal 3D trajectory. The network dynamically and simultaneously indexes and constructs appearance correlation and depth residual features. Transformers are then employed to explore and utilize long-range connections within and between trajectories. With detailed experiments, SceneTracker shows superior capabilities in addressing 3D spatial occlusion and depth noise interference, highly tailored to the needs of the LSFE task. We build a real-world evaluation dataset, LSFDriving, for the LSFE field and use it in experiments to further demonstrate the advantage of SceneTracker in generalization abilities. The code and data are available at https://github.com/wwsource/SceneTracker.
- Abstract(参考訳): 本研究では,空間領域に焦点を合わせることができるが,時間領域のコヒーレンスに欠けるシーンフロー推定(LSFE)を提案する。
SceneTrackerは、最適な3次元軌道を近似するために反復的なアプローチを採用する最初のLSFEネットワークである。
ネットワークは動的かつ同時に、外観相関と深度残差特徴をインデックスし、構成する。
変換器は、軌道内および軌道間の長距離接続の探索と利用に使用される。
詳細な実験により、SceneTrackerはLSFEタスクのニーズに合わせて高度に調整された3次元空間閉塞と奥行きノイズ干渉に対処する優れた能力を示す。
LSFEフィールドのための実世界の評価データセットであるLSFDrivingを構築し、SceneTrackerの一般化能力のメリットをさらに実証するために実験に使用する。
コードとデータはhttps://github.com/wwsource/SceneTracker.comで公開されている。
関連論文リスト
- DELTA: Dense Efficient Long-range 3D Tracking for any video [82.26753323263009]
DELTAは3次元空間内のすべてのピクセルを効率よく追跡し,ビデオ全体の正確な動き推定を可能にする手法である。
提案手法では,低分解能追跡のためのグローバルアテンション機構と,高分解能予測を実現するためのトランスフォーマーベースアップサンプラーを併用する。
提案手法は,3次元空間における細粒度・長期動作追跡を必要とするアプリケーションに対して,ロバストなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-31T17:59:01Z) - Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。
モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-18T09:34:47Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - CXTrack: Improving 3D Point Cloud Tracking with Contextual Information [59.55870742072618]
3Dオブジェクトトラッキングは、自律運転など、多くのアプリケーションにおいて重要な役割を果たす。
CXTrackは3次元オブジェクト追跡のためのトランスフォーマーベースのネットワークである。
CXTrackは29FPSで動作しながら最先端のトラッキング性能を実現する。
論文 参考訳(メタデータ) (2022-11-12T11:29:01Z) - SpOT: Spatiotemporal Modeling for 3D Object Tracking [68.12017780034044]
3Dマルチオブジェクトトラッキングは、常にすべてのモバイル時間を特定することを目的としている。
現在の3Dトラッキング手法は、抽象化された情報と限られた歴史に依存している。
本研究では,空間的情報と時間的情報の両方を活用するシーンの全体的表現を開発する。
論文 参考訳(メタデータ) (2022-07-12T21:45:49Z) - 3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature
Correlation [0.0]
3D-FCTは、時間情報を利用して3Dオブジェクトの検出と追跡の関連タスクを同時に実行するシームズネットワークアーキテクチャである。
提案手法は,最先端手法よりも5.57%mAPの改善が期待できるKITTI追跡データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-06T06:36:29Z) - TDIOT: Target-driven Inference for Deep Video Object Tracking [0.2457872341625575]
本研究では,事前訓練したMask R-CNNディープオブジェクト検出器をベースラインとして採用する。
本研究では,Mask R-CNNのFPN-ResNet101バックボーン上に新しい推論アーキテクチャを導入し,検出と追跡を共同で行う。
提案する単一オブジェクトトラッカであるtdiotは、データアソシエーションに外観類似性に基づく時間マッチングを適用する。
論文 参考訳(メタデータ) (2021-03-19T20:45:06Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - DeepTracking-Net: 3D Tracking with Unsupervised Learning of Continuous
Flow [12.690471276907445]
本論文は3次元追跡の問題,すなわち時間変化の連続した3次元形状における密度の高い対応を見つけることを扱う。
本稿では、ディープニューラルネットワーク(DNN)を補助機能として利用するDeepTracking-Netという、教師なし3次元形状のフレームワークを提案する。
さらに,SynMotionsと呼ばれる新しい合成3Dデータを3D追跡・認識コミュニティに準備する。
論文 参考訳(メタデータ) (2020-06-24T16:20:48Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。