論文の概要: Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition
- arxiv url: http://arxiv.org/abs/2502.10674v1
- Date: Sat, 15 Feb 2025 04:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:38.668181
- Title: Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition
- Title(参考訳): オープンワールド3次元物体認識のためのOcclusion-aware Text-Image-Point Cloud Pretraining
- Authors: Khanh Nguyen, Ghulam Mubashar Hassan, Ajmal Mian,
- Abstract要約: 我々は3次元オブジェクト認識のためのテキストイメージポイントクラウド事前学習フレームワークを開発した。
点雲に適した2ストリーム線形状態空間モデルであるDuoMambaについても紹介する。
私たちのフレームワークで事前トレーニングを行うと、DuoMambaは現在の最先端メソッドを超え、レイテンシとFLOPを削減します。
- 参考スコア(独自算出の注目度): 27.70464285941205
- License:
- Abstract: Recent open-world representation learning approaches have leveraged CLIP to enable zero-shot 3D object recognition. However, performance on real point clouds with occlusions still falls short due to the unrealistic pretraining settings. Additionally, these methods incur high inference costs because they rely on Transformer's attention modules. In this paper, we make two contributions to address these limitations. First, we propose occlusion-aware text-image-point cloud pretraining to reduce the training-testing domain gap. From 52K synthetic 3D objects, our framework generates nearly 630K partial point clouds for pretraining, consistently improving real-world recognition performances of existing popular 3D networks. Second, to reduce computational requirements, we introduce DuoMamba, a two-stream linear state space model tailored for point clouds. By integrating two space-filling curves with 1D convolutions, DuoMamba effectively models spatial dependencies between point tokens, offering a powerful alternative to Transformer. When pretrained with our framework, DuoMamba surpasses current state-of-the-art methods while reducing latency and FLOPs, highlighting the potential of our approach for real-world applications. We will release our data and code to facilitate future research.
- Abstract(参考訳): 最近のオープンワールド表現学習アプローチでは、CLIPを活用してゼロショット3Dオブジェクト認識を実現している。
しかし、非現実的な事前トレーニング設定のため、閉塞のあるリアルタイムクラウドのパフォーマンスは依然として不足している。
さらに、これらの手法はTransformerのアテンションモジュールに依存するため、高い推論コストを発生させる。
本稿では,これらの制約に対処するための2つの貢献を行う。
まず,Occlusion-aware text-image-point cloud pretraining を提案する。
52Kの合成3Dオブジェクトから,既存の3Dネットワークの認識性能を継続的に向上し,事前学習のための630K近い部分点雲を生成する。
次に,2ストリーム線形状態空間モデルであるDuoMambaを導入する。
2つの空間充填曲線と1D畳み込みを統合することで、DuoMambaは事実上ポイントトークン間の空間依存をモデル化し、Transformerの強力な代替手段を提供する。
DuoMambaは、我々のフレームワークで事前トレーニングされた場合、現在の最先端のメソッドを超越し、レイテンシとFLOPを削減し、現実世界のアプリケーションに対する我々のアプローチの可能性を強調します。
今後の研究を促進するために、データとコードを公開します。
関連論文リスト
- Precise Workcell Sketching from Point Clouds Using an AR Toolbox [1.249418440326334]
実世界の3D空間をポイントクラウドとしてキャプチャすることは効率的で記述的だが、センサーエラーがあり、オブジェクトのパラメトリゼーションが欠如している。
Augmented Reality インタフェースを用いて,3次元ワークセルスケッチをポイントクラウドから作成することで,生のポイントクラウドを洗練することができる。
ツールボックスとAR対応ポインティングデバイスを利用することで、ユーザーは3次元空間におけるデバイスの位置に基づいてポイントクラウドの精度を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T08:07:51Z) - CloudFixer: Test-Time Adaptation for 3D Point Clouds via Diffusion-Guided Geometric Transformation [33.07886526437753]
実世界のセンサーから捉えた3Dポイントの雲は、様々な障害物のためにしばしばノイズの多い点を包含する。
これらの課題は、クリーンポイントクラウドでトレーニングされたトレーニング済みのポイントクラウド認識モデルのデプロイを妨げる。
本研究では,3次元点雲に適したテスト時間入力適応法であるCloudFixerを提案する。
論文 参考訳(メタデータ) (2024-07-23T05:35:04Z) - PointRegGPT: Boosting 3D Point Cloud Registration using Generative Point-Cloud Pairs for Training [90.06520673092702]
生成点クラウドペアを用いた3Dポイントクラウドの登録をトレーニングのために促進するPointRegGPTを提案する。
我々の知る限り、これは屋内のクラウド登録のためのリアルなデータ生成を探求する最初の生成的アプローチである。
論文 参考訳(メタデータ) (2024-07-19T06:29:57Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。