論文の概要: HQ-OV3D: A High Box Quality Open-World 3D Detection Framework based on Diffision Model
- arxiv url: http://arxiv.org/abs/2508.10935v1
- Date: Tue, 12 Aug 2025 18:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.587533
- Title: HQ-OV3D: A High Box Quality Open-World 3D Detection Framework based on Diffision Model
- Title(参考訳): HQ-OV3D:拡散モデルに基づく高品質オープンワールド3D検出フレームワーク
- Authors: Qi Liu, Yabei Li, Hongsong Wang, Lei He,
- Abstract要約: 本稿では,高品質な擬似ラベルの生成と精巧化を目的とした,ハイボックス品質3D検出(HQ-OV3D)フレームワークを提案する。
HQ-OV3Dは、強力なスタンドアロンのオープンボキャブラリ3D検出器としてだけでなく、既存のオープンボキャブラリ検出やアノテーションパイプラインのためのプラグインの質の高い擬似ラベルジェネレータとしても機能する。
- 参考スコア(独自算出の注目度): 9.89023516462523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional closed-set 3D detection frameworks fail to meet the demands of open-world applications like autonomous driving. Existing open-vocabulary 3D detection methods typically adopt a two-stage pipeline consisting of pseudo-label generation followed by semantic alignment. While vision-language models (VLMs) recently have dramatically improved the semantic accuracy of pseudo-labels, their geometric quality, particularly bounding box precision, remains commonly neglected.To address this issue, we propose a High Box Quality Open-Vocabulary 3D Detection (HQ-OV3D) framework, dedicated to generate and refine high-quality pseudo-labels for open-vocabulary classes. The framework comprises two key components: an Intra-Modality Cross-Validated (IMCV) Proposal Generator that utilizes cross-modality geometric consistency to generate high-quality initial 3D proposals, and an Annotated-Class Assisted (ACA) Denoiser that progressively refines 3D proposals by leveraging geometric priors from annotated categories through a DDIM-based denoising mechanism.Compared to the state-of-the-art method, training with pseudo-labels generated by our approach achieves a 7.37% improvement in mAP on novel classes, demonstrating the superior quality of the pseudo-labels produced by our framework. HQ-OV3D can serve not only as a strong standalone open-vocabulary 3D detector but also as a plug-in high-quality pseudo-label generator for existing open-vocabulary detection or annotation pipelines.
- Abstract(参考訳): 従来のクローズドセットの3D検出フレームワークは、自動運転のようなオープンワールドアプリケーションの要求を満たすことができない。
既存のオープン語彙の3D検出方法は、通常、擬似ラベル生成とセマンティックアライメントからなる2段階のパイプラインを採用する。
視覚言語モデル(VLM)は近年,擬似ラベルのセマンティックな精度を劇的に向上させているが,その幾何学的品質,特に境界ボックスの精度は一般的に無視されている。この問題に対処するために,オープン語彙クラスのための高品質な擬似ラベルの生成と洗練を目的とした,ハイボックス品質な3D検出(HQ-OV3D)フレームワークを提案する。
本フレームワークは2つの主要なコンポーネントから構成される: Modality Inter-Validated (IMCV) 提案ジェネレータは、高品位な初期3D提案を生成するために、異質な幾何学的整合性を利用する。また、DDIMベースのデノベーション機構を通じて、アノテーション付きカテゴリからの幾何学的先行性を活用することで、3D提案を段階的に洗練するアノテーションクラス支援デノワザであり、我々の手法により生成された擬似ラベルを用いたトレーニングは、新しいクラスにおけるmAPの7.37%の改善を実現し、我々のフレームワークによって生成された擬似ラベルの優れた品質を実証する。
HQ-OV3Dは、強力なスタンドアロンのオープンボキャブラリ3D検出器としてだけでなく、既存のオープンボキャブラリ検出やアノテーションパイプラインのためのプラグインの質の高い擬似ラベルジェネレータとしても機能する。
関連論文リスト
- Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [45.68105299990119]
Open-vocabulary 3D object Detection (OV-3DOD) は、閉じた集合を超えて新しいオブジェクトをローカライズし分類することを目的としている。
我々は,OV-3DODの局所オブジェクトとグローバルシーン情報を同時に学習するための階層型フレームワークHCMAを提案する。
論文 参考訳(メタデータ) (2025-03-10T17:55:22Z) - SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts [13.349110509879312]
スパース制御された3Dオブジェクト検出は注目され、完全に教師された3Dオブジェクト・オブジェクタに近い性能を実現している。
本研究では,スパースアノテーション設定下での頑健な特徴識別機能を備えた3D検出器の強化を目的とした,SP3Dと呼ばれるブースティング戦略を提案する。
実験により、SP3Dはわずかに観察された検出器の性能を、平均的なラベル付け条件下で大きなマージンで向上させることができることが確認された。
論文 参考訳(メタデータ) (2025-03-09T06:08:04Z) - Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [34.91703960513125]
CoDAv2は、新しい3Dオブジェクトのローカライズと分類の両方に取り組むために設計された統一フレームワークである。
CoDAv2は、高いマージンで最高のパフォーマンスの方法より優れている。
ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。
論文 参考訳(メタデータ) (2024-06-02T18:32:37Z) - Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection [108.672972439282]
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,擬似ラベルを効率的に生成するためのDPGモジュールを特徴とする。
また,擬似ラベルの雑音深度監視による最適化競合を軽減するために,DGPモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-26T05:12:18Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。