論文の概要: TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking
- arxiv url: http://arxiv.org/abs/2507.19908v1
- Date: Sat, 26 Jul 2025 10:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.458991
- Title: TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking
- Title(参考訳): TrackAny3D:カテゴリー統一3D点追跡のための事前訓練3Dモデル転送
- Authors: Mengmeng Wang, Haonan Wang, Yulong Li, Xiangjie Kong, Jiaxin Du, Guojiang Shen, Feng Xia,
- Abstract要約: TrackAny3Dは、カテゴリーに依存しない3D SOTのために、大規模な事前訓練された3Dモデルを転送する最初のフレームワークである。
MoGEアーキテクチャは、異なる幾何学的特徴に基づいて、特殊3ワークスを適応的に活性化する。
実験の結果,TrackAny3Dはカテゴリに依存しない3D SOT上での最先端性能を確立した。
- 参考スコア(独自算出の注目度): 25.788917457593673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D LiDAR-based single object tracking (SOT) relies on sparse and irregular point clouds, posing challenges from geometric variations in scale, motion patterns, and structural complexity across object categories. Current category-specific approaches achieve good accuracy but are impractical for real-world use, requiring separate models for each category and showing limited generalization. To tackle these issues, we propose TrackAny3D, the first framework to transfer large-scale pretrained 3D models for category-agnostic 3D SOT. We first integrate parameter-efficient adapters to bridge the gap between pretraining and tracking tasks while preserving geometric priors. Then, we introduce a Mixture-of-Geometry-Experts (MoGE) architecture that adaptively activates specialized subnetworks based on distinct geometric characteristics. Additionally, we design a temporal context optimization strategy that incorporates learnable temporal tokens and a dynamic mask weighting module to propagate historical information and mitigate temporal drift. Experiments on three commonly-used benchmarks show that TrackAny3D establishes new state-of-the-art performance on category-agnostic 3D SOT, demonstrating strong generalization and competitiveness. We hope this work will enlighten the community on the importance of unified models and further expand the use of large-scale pretrained models in this field.
- Abstract(参考訳): 3D LiDARベースのシングルオブジェクトトラッキング(SOT)はスパースと不規則な点の雲に依存しており、スケールの幾何学的変動、動きパターン、オブジェクトカテゴリ全体の構造的複雑さといった課題を提起している。
現在のカテゴリ固有のアプローチは精度が良いが、実世界の利用には不実用であり、各カテゴリごとに別々のモデルが必要であり、限定的な一般化を示す。
これらの課題に対処するために,カテゴリに依存しない3D SOTのための大規模事前学習3Dモデルを転送する最初のフレームワークであるTrackAny3Dを提案する。
まずパラメータ効率のよいアダプタを統合して,事前学習タスクと追跡タスクのギャップを埋める。
次に、異なる幾何学的特性に基づいて、特殊サブネットを適応的に活性化するMixture-of-Geometry-Experts (MoGE)アーキテクチャを提案する。
さらに,学習可能な時間的トークンと動的マスク重み付けモジュールを組み込んだ時間的文脈最適化戦略を設計し,時間的ドリフトを緩和する。
一般的に使用されている3つのベンチマーク実験により、TrackAny3Dはカテゴリに依存しない3D SOT上で新しい最先端性能を確立し、強力な一般化と競争力を示すことが示された。
この研究は、統一モデルの重要性をコミュニティに啓蒙し、この分野における大規模事前訓練モデルの利用をさらに拡大することを願っている。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。
当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-05-28T15:08:36Z) - Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification [59.68055837500357]
本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。
Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。
Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
論文 参考訳(メタデータ) (2025-05-23T09:31:02Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Towards Category Unification of 3D Single Object Tracking on Point Clouds [10.64650098374183]
カテゴリー特化モデルは、シームズや動き中心のパラダイムに関わらず、3次元単体追跡(SOT)において非常に価値のある手法である。
本稿ではまず,共有モデルパラメータを持つ単一ネットワークを用いて,すべてのカテゴリにまたがるオブジェクトを同時に追跡できる統一モデルを提案する。
論文 参考訳(メタデータ) (2024-01-20T10:38:28Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - BundleTrack: 6D Pose Tracking for Novel Objects without Instance or
Category-Level 3D Models [1.14219428942199]
この研究は、オブジェクトの6Dポーズトラッキングのための一般的なフレームワークである BundleTrackを提案する。
フレームワークの効率的な実装は、フレームワーク全体に対してリアルタイムな10Hzのパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-08-01T18:14:46Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Few-Shot Single-View 3-D Object Reconstruction with Compositional Priors [30.262308825799167]
複雑なエンコーダ・デコーダアーキテクチャは、標準ベンチマークにおいて、最寄りのベースラインと同様に動作することを示す。
本稿では,3次元再構成モデルに事前クラスを効率的に統合する3つの手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T04:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。