論文の概要: BlendCLIP: Bridging Synthetic and Real Domains for Zero-Shot 3D Object Classification with Multimodal Pretraining
- arxiv url: http://arxiv.org/abs/2510.18244v1
- Date: Tue, 21 Oct 2025 03:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.83124
- Title: BlendCLIP: Bridging Synthetic and Real Domains for Zero-Shot 3D Object Classification with Multimodal Pretraining
- Title(参考訳): BlendCLIP:マルチモーダル事前学習によるゼロショット3次元オブジェクト分類のためのブリッジ合成と実領域
- Authors: Ajinkya Khoche, Gergő László Nagy, Maciej Wozniak, Thomas Gustafsson, Patric Jensfelt,
- Abstract要約: ゼロショットの3Dオブジェクト分類は、自動運転のような現実世界のアプリケーションには不可欠だ。
トレーニングに使用される合成データと、現実世界で遭遇するノイズの多いLiDARスキャンとの間の大きな領域ギャップによって、しばしば妨げられる。
BlendCLIPは、両ドメインの強みを戦略的に組み合わせることで、この合成と現実のギャップを橋渡しするマルチモーダル事前学習フレームワークである。
- 参考スコア(独自算出の注目度): 2.400704807305413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot 3D object classification is crucial for real-world applications like autonomous driving, however it is often hindered by a significant domain gap between the synthetic data used for training and the sparse, noisy LiDAR scans encountered in the real-world. Current methods trained solely on synthetic data fail to generalize to outdoor scenes, while those trained only on real data lack the semantic diversity to recognize rare or unseen objects. We introduce BlendCLIP, a multimodal pretraining framework that bridges this synthetic-to-real gap by strategically combining the strengths of both domains. We first propose a pipeline to generate a large-scale dataset of object-level triplets -- consisting of a point cloud, image, and text description -- mined directly from real-world driving data and human annotated 3D boxes. Our core contribution is a curriculum-based data mixing strategy that first grounds the model in the semantically rich synthetic CAD data before progressively adapting it to the specific characteristics of real-world scans. Our experiments show that our approach is highly label-efficient: introducing as few as 1.5\% real-world samples per batch into training boosts zero-shot accuracy on the nuScenes benchmark by 27\%. Consequently, our final model achieves state-of-the-art performance on challenging outdoor datasets like nuScenes and TruckScenes, improving over the best prior method by 19.3\% on nuScenes, while maintaining strong generalization on diverse synthetic benchmarks. Our findings demonstrate that effective domain adaptation, not full-scale real-world annotation, is the key to unlocking robust open-vocabulary 3D perception. Our code and dataset will be released upon acceptance on https://github.com/kesu1/BlendCLIP.
- Abstract(参考訳): ゼロショット3Dオブジェクトの分類は、自動運転のような現実世界のアプリケーションには不可欠だが、訓練に使用される合成データと、現実世界で遭遇する希少でノイズの多いLiDARスキャンとの間の大きな領域ギャップによって、しばしば妨げられる。
合成データのみに訓練された現在の方法は、屋外のシーンに一般化するのに失敗し、実際のデータにのみ訓練された者は、希少または見えないオブジェクトを認識するための意味的な多様性を欠いている。
BlendCLIPは、両ドメインの強みを戦略的に組み合わせることで、この合成と現実のギャップを橋渡しするマルチモーダル事前学習フレームワークである。
まず、現実世界の運転データと人間の注釈付き3Dボックスから直接抽出された、ポイントクラウド、画像、テキスト記述からなる大規模なオブジェクトレベルのトリップレットのデータセットを生成するパイプラインを提案する。
我々の中核的な貢献はカリキュラムベースのデータ混合戦略であり、まず、実世界のスキャンの特徴に徐々に適応する前に、意味的にリッチな合成CADデータにモデルを基礎付ける。
トレーニングに1バッチあたり1.5 %の実際のサンプルを導入することで、nuScenesベンチマークのゼロショット精度が27 %向上する。
その結果、我々は、nuScenes や TruckScenes のような挑戦的な屋外データセットの最先端性能を達成し、様々な合成ベンチマークの強力な一般化を維持しながら、nuScenes において19.3 % 改善した。
本研究は, 実世界の実世界のアノテーションではなく, 効果的なドメイン適応が, 堅牢なオープン語彙3D知覚の鍵であることを実証した。
私たちのコードとデータセットはhttps://github.com/kesu1/BlendCLIPで受け入れられる。
関連論文リスト
- Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - GIPSO: Geometrically Informed Propagation for Online Adaptation in 3D
LiDAR Segmentation [60.07812405063708]
3Dポイントクラウドセマンティックセグメンテーションは、自動運転に基本である。
文学におけるほとんどのアプローチは、動的シーンを扱う際に、ドメインシフトをどのように扱うかという重要な側面を無視している。
本稿では,本研究分野における最先端技術について述べる。
論文 参考訳(メタデータ) (2022-07-20T09:06:07Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。