論文の概要: Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition
- arxiv url: http://arxiv.org/abs/2502.10674v1
- Date: Sat, 15 Feb 2025 04:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:38.668181
- Title: Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition
- Title(参考訳): オープンワールド3次元物体認識のためのOcclusion-aware Text-Image-Point Cloud Pretraining
- Authors: Khanh Nguyen, Ghulam Mubashar Hassan, Ajmal Mian,
- Abstract要約: 我々は3次元オブジェクト認識のためのテキストイメージポイントクラウド事前学習フレームワークを開発した。
点雲に適した2ストリーム線形状態空間モデルであるDuoMambaについても紹介する。
私たちのフレームワークで事前トレーニングを行うと、DuoMambaは現在の最先端メソッドを超え、レイテンシとFLOPを削減します。
- 参考スコア(独自算出の注目度): 27.70464285941205
- License:
- Abstract: Recent open-world representation learning approaches have leveraged CLIP to enable zero-shot 3D object recognition. However, performance on real point clouds with occlusions still falls short due to the unrealistic pretraining settings. Additionally, these methods incur high inference costs because they rely on Transformer's attention modules. In this paper, we make two contributions to address these limitations. First, we propose occlusion-aware text-image-point cloud pretraining to reduce the training-testing domain gap. From 52K synthetic 3D objects, our framework generates nearly 630K partial point clouds for pretraining, consistently improving real-world recognition performances of existing popular 3D networks. Second, to reduce computational requirements, we introduce DuoMamba, a two-stream linear state space model tailored for point clouds. By integrating two space-filling curves with 1D convolutions, DuoMamba effectively models spatial dependencies between point tokens, offering a powerful alternative to Transformer. When pretrained with our framework, DuoMamba surpasses current state-of-the-art methods while reducing latency and FLOPs, highlighting the potential of our approach for real-world applications. We will release our data and code to facilitate future research.
- Abstract(参考訳): 最近のオープンワールド表現学習アプローチでは、CLIPを活用してゼロショット3Dオブジェクト認識を実現している。
しかし、非現実的な事前トレーニング設定のため、閉塞のあるリアルタイムクラウドのパフォーマンスは依然として不足している。
さらに、これらの手法はTransformerのアテンションモジュールに依存するため、高い推論コストを発生させる。
本稿では,これらの制約に対処するための2つの貢献を行う。
まず,Occlusion-aware text-image-point cloud pretraining を提案する。
52Kの合成3Dオブジェクトから,既存の3Dネットワークの認識性能を継続的に向上し,事前学習のための630K近い部分点雲を生成する。
次に,2ストリーム線形状態空間モデルであるDuoMambaを導入する。
2つの空間充填曲線と1D畳み込みを統合することで、DuoMambaは事実上ポイントトークン間の空間依存をモデル化し、Transformerの強力な代替手段を提供する。
DuoMambaは、我々のフレームワークで事前トレーニングされた場合、現在の最先端のメソッドを超越し、レイテンシとFLOPを削減し、現実世界のアプリケーションに対する我々のアプローチの可能性を強調します。
今後の研究を促進するために、データとコードを公開します。
関連論文リスト
- SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - CloudFixer: Test-Time Adaptation for 3D Point Clouds via Diffusion-Guided Geometric Transformation [33.07886526437753]
実世界のセンサーから捉えた3Dポイントの雲は、様々な障害物のためにしばしばノイズの多い点を包含する。
これらの課題は、クリーンポイントクラウドでトレーニングされたトレーニング済みのポイントクラウド認識モデルのデプロイを妨げる。
本研究では,3次元点雲に適したテスト時間入力適応法であるCloudFixerを提案する。
論文 参考訳(メタデータ) (2024-07-23T05:35:04Z) - PointRegGPT: Boosting 3D Point Cloud Registration using Generative Point-Cloud Pairs for Training [90.06520673092702]
生成点クラウドペアを用いた3Dポイントクラウドの登録をトレーニングのために促進するPointRegGPTを提案する。
我々の知る限り、これは屋内のクラウド登録のためのリアルなデータ生成を探求する最初の生成的アプローチである。
論文 参考訳(メタデータ) (2024-07-19T06:29:57Z) - ComPC: Completing a 3D Point Cloud with 2D Diffusion Priors [52.72867922938023]
センサーを通して直接オブジェクトから収集される3Dポイント雲は、自己閉塞のため、しばしば不完全である。
トレーニングを必要とせずに、未確認のカテゴリにまたがる部分点雲を完結させるテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T08:02:17Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。