論文の概要: GSOT3D: Towards Generic 3D Single Object Tracking in the Wild
- arxiv url: http://arxiv.org/abs/2412.02129v1
- Date: Tue, 03 Dec 2024 03:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:38.211734
- Title: GSOT3D: Towards Generic 3D Single Object Tracking in the Wild
- Title(参考訳): GSOT3D:野生でのジェネリックな3Dオブジェクト追跡を目指して
- Authors: Yifan Jiao, Yunhao Li, Junhua Ding, Qing Yang, Song Fu, Heng Fan, Libo Zhang,
- Abstract要約: 本稿では,汎用的な3次元オブジェクト追跡(SOT)の開発を支援する新しいベンチマークGSOT3Dを提案する。
GSOT3Dは620のシーケンスと123Kフレームを提供し、54のオブジェクトカテゴリをカバーしている。
フレームごとの高品質な3Dアノテーションを提供するために、すべてのシーケンスを細心の注意を払って複数のラウンドで手動でラベル付けする。
- 参考スコア(独自算出の注目度): 17.780479651661558
- License:
- Abstract: In this paper, we present a novel benchmark, GSOT3D, that aims at facilitating development of generic 3D single object tracking (SOT) in the wild. Specifically, GSOT3D offers 620 sequences with 123K frames, and covers a wide selection of 54 object categories. Each sequence is offered with multiple modalities, including the point cloud (PC), RGB image, and depth. This allows GSOT3D to support various 3D tracking tasks, such as single-modal 3D SOT on PC and multi-modal 3D SOT on RGB-PC or RGB-D, and thus greatly broadens research directions for 3D object tracking. To provide highquality per-frame 3D annotations, all sequences are labeled manually with multiple rounds of meticulous inspection and refinement. To our best knowledge, GSOT3D is the largest benchmark dedicated to various generic 3D object tracking tasks. To understand how existing 3D trackers perform and to provide comparisons for future research on GSOT3D, we assess eight representative point cloud-based tracking models. Our evaluation results exhibit that these models heavily degrade on GSOT3D, and more efforts are required for robust and generic 3D object tracking. Besides, to encourage future research, we present a simple yet effective generic 3D tracker, named PROT3D, that localizes the target object via a progressive spatial-temporal network and outperforms all current solutions by a large margin. By releasing GSOT3D, we expect to advance further 3D tracking in future research and applications. Our benchmark and model as well as the evaluation results will be publicly released at our webpage https://github.com/ailovejinx/GSOT3D.
- Abstract(参考訳): 本稿では,汎用的な3Dオブジェクト追跡(SOT)の開発を促進することを目的とした,新しいベンチマークGSOT3Dを提案する。
具体的には、GSOT3Dは620のシーケンスと123Kフレームを提供し、54のオブジェクトカテゴリを幅広くカバーしている。
各シーケンスは、ポイントクラウド(PC)、RGB画像、深さを含む複数のモードで提供される。
これにより、GSOT3DはPC上のシングルモーダル3D SOTやRGB-PCまたはRGB-D上のマルチモーダル3D SOTといった様々な3D追跡タスクをサポートし、これにより3Dオブジェクト追跡の研究方向を大きく広げる。
フレームごとの高品質な3Dアノテーションを提供するために、すべてのシーケンスを細心の注意を払って複数のラウンドで手動でラベル付けする。
我々の知る限り、GSOT3Dは様々なジェネリック3Dオブジェクト追跡タスクに特化した最大のベンチマークである。
既存の3Dトラッカーがどのように機能するかを把握し、将来のGSOT3D研究のための比較を行うため、8つの代表的なクラウドベーストラッカーモデルを評価した。
評価の結果,これらのモデルはGSOT3Dで大きく劣化し,堅牢で汎用的な3Dオブジェクト追跡にはさらなる努力が必要であることが示された。
また,今後の研究を促進するために,Plat3Dというシンプルな汎用3Dトラッカーを提案し,プログレッシブな時空間ネットワークを介して対象物体を局所化し,現在の全ての解を大きなマージンで上回る結果を得た。
GSOT3Dをリリースすることによって、今後の研究や応用において、さらなる3Dトラッキングを推し進めることを期待します。
我々のベンチマークとモデルと評価結果は、我々のWebページ https://github.com/ailovejinx/GSOT3Dで公開されます。
関連論文リスト
- TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - 3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。
両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。
深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文 参考訳(メタデータ) (2021-11-21T04:14:45Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset [34.609125601292]
我々は,RGB画像と3Dポイントクラウドの情報を統合し,リアルタイムトラッキング性能を実現する新しい3DMOTシステムJRMOTを提案する。
我々の研究の一環として、新しい大規模2D+3DデータセットとベンチマークであるJRDBデータセットをリリースしました。
提案する3D MOTシステムは,一般的な2DトラッキングKITTIベンチマークにおいて,競合する手法に対する最先端性能を示す。
論文 参考訳(メタデータ) (2020-02-19T19:21:33Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。