論文の概要: Towards Category Unification of 3D Single Object Tracking on Point
Clouds
- arxiv url: http://arxiv.org/abs/2401.11204v1
- Date: Sat, 20 Jan 2024 10:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:31:15.283934
- Title: Towards Category Unification of 3D Single Object Tracking on Point
Clouds
- Title(参考訳): 点雲上の3次元単一物体追跡のカテゴリ統一に向けて
- Authors: Jiahao Nie, Zhiwei He, Xudong Lv, Xueyi Zhou, Dong-Kyu Chae, Fei Xie
- Abstract要約: カテゴリー特化モデルは、シームズや動き中心のパラダイムに関わらず、3次元単体追跡(SOT)において非常に価値のある手法である。
本稿ではまず,共有モデルパラメータを持つ単一ネットワークを用いて,すべてのカテゴリにまたがるオブジェクトを同時に追跡できる統一モデルを提案する。
- 参考スコア(独自算出の注目度): 11.281200884073812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Category-specific models are provenly valuable methods in 3D single object
tracking (SOT) regardless of Siamese or motion-centric paradigms. However, such
over-specialized model designs incur redundant parameters, thus limiting the
broader applicability of 3D SOT task. This paper first introduces unified
models that can simultaneously track objects across all categories using a
single network with shared model parameters. Specifically, we propose to
explicitly encode distinct attributes associated to different object
categories, enabling the model to adapt to cross-category data. We find that
the attribute variances of point cloud objects primarily occur from the varying
size and shape (e.g., large and square vehicles v.s. small and slender humans).
Based on this observation, we design a novel point set representation learning
network inheriting transformer architecture, termed AdaFormer, which adaptively
encodes the dynamically varying shape and size information from cross-category
data in a unified manner. We further incorporate the size and shape prior
derived from the known template targets into the model's inputs and learning
objective, facilitating the learning of unified representation. Equipped with
such designs, we construct two category-unified models SiamCUT and
MoCUT.Extensive experiments demonstrate that SiamCUT and MoCUT exhibit strong
generalization and training stability. Furthermore, our category-unified models
outperform the category-specific counterparts by a significant margin (e.g., on
KITTI dataset, 12% and 3% performance gains on the Siamese and motion
paradigms). Our code will be available.
- Abstract(参考訳): カテゴリー特化モデルは、シームズや動き中心のパラダイムに関わらず、3次元単体追跡(SOT)において非常に価値のある手法である。
しかし、これらの過度に特化されたモデル設計は冗長なパラメータを伴い、3d sotタスクの幅広い適用性を制限する。
本稿ではまず,共有モデルパラメータを持つ単一のネットワークを用いて,全カテゴリのオブジェクトを同時に追跡できる統一モデルを提案する。
具体的には、異なるオブジェクトカテゴリに関連付けられた属性を明示的に符号化し、モデルがカテゴリ間データに適応できるようにする。
点雲の物体の属性のばらつきは、主に様々な大きさと形状(例えば、大型車や四角形車、小型で細長い人間など)から生じる。
そこで本研究では,クロスカテゴリデータから動的に変化する形状とサイズ情報を適応的に符号化する,トランスフォーマアーキテクチャを継承する新しい点集合表現学習ネットワーク adaformer を設計した。
さらに,既知のテンプレート目標から導出したサイズと形状をモデルの入力と学習目標に取り入れ,統一表現の学習を容易にする。
SiamCUT と MoCUT の2つのカテゴリ統一モデルを構築し,SiamCUT と MoCUT が強い一般化と訓練安定性を示すことを示した。
さらに、カテゴリ統一モデルは、カテゴリ固有のモデルよりも大きなマージン(例えば、KITTIデータセットでは、シームズとモーションパラダイムでは12%と3%のパフォーマンス向上)で優れています。
私たちのコードは利用可能です。
関連論文リスト
- Transfer Learning with Point Transformers [3.678615604632945]
Point Transformerは、Point Cloudデータの分類、セグメンテーション、検出のための最先端モデルである。
モデルNet10データセットに基づくこれらの注目ネットワークの分類性能について検討し、3次元MNISTデータセットを微調整後に分類するためにトレーニングされたモデルを用いた。
論文 参考訳(メタデータ) (2024-04-01T01:23:58Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field [29.42222066097076]
RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
本稿では,オブジェクトカテゴリの暗黙的ニューラルネットワークに基づくポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。
論文 参考訳(メタデータ) (2023-08-04T10:35:40Z) - Number-Adaptive Prototype Learning for 3D Point Cloud Semantic
Segmentation [46.610620464184926]
セマンティッククラス内の異なる点パターンを動的に記述するために,適応的なプロトタイプ数を提案する。
本手法は,ポイントワイド分類パラダイムに基づくベースラインモデルよりも2.3%mIoUの改善を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:57:20Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Template NeRF: Towards Modeling Dense Shape Correspondences from
Category-Specific Object Images [4.662583832063716]
本研究では, テンプレートを用いたNeRF(Near Raddiance Field)を, 外観や形状をモデル化するためのテンプレートとして提示する。
多視点画像のみから同一カテゴリのオブジェクト間の密な形状対応を同時に生成する。
学習された高密度対応は、キーポイント検出、部分分割、テクスチャ転送など、様々な画像ベースのタスクに容易に利用できる。
論文 参考訳(メタデータ) (2021-11-08T02:16:48Z) - Multi-Category Mesh Reconstruction From Image Collections [90.24365811344987]
本稿では, 一連の変形可能な3次元モデルとインスタンス固有の変形, ポーズ, テクスチャのセットを組み合わせた, オブジェクトのテクスチャメッシュを推定する手法を提案する。
本手法は,前景マスクと粗いカメラポーズのみを監督として,複数の対象カテゴリの画像を用いて訓練する。
実験により,提案フレームワークは異なる対象カテゴリを区別し,教師なしの方法でカテゴリ固有の形状を学習できることが示唆された。
論文 参考訳(メタデータ) (2021-10-21T16:32:31Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。