論文の概要: Open-Vocabulary Point-Cloud Object Detection without 3D Annotation
- arxiv url: http://arxiv.org/abs/2304.00788v2
- Date: Wed, 17 May 2023 02:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 19:50:37.357224
- Title: Open-Vocabulary Point-Cloud Object Detection without 3D Annotation
- Title(参考訳): 3次元アノテーションを伴わないオープンボキャブラリポイントクラウド物体検出
- Authors: Yuheng Lu, Chenfeng Xu, Xiaobao Wei, Xiaodong Xie, Masayoshi Tomizuka,
Kurt Keutzer, Shanghang Zhang
- Abstract要約: オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
- 参考スコア(独自算出の注目度): 62.18197846270103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of open-vocabulary detection is to identify novel objects based on
arbitrary textual descriptions. In this paper, we address open-vocabulary 3D
point-cloud detection by a dividing-and-conquering strategy, which involves: 1)
developing a point-cloud detector that can learn a general representation for
localizing various objects, and 2) connecting textual and point-cloud
representations to enable the detector to classify novel object categories
based on text prompting. Specifically, we resort to rich image pre-trained
models, by which the point-cloud detector learns localizing objects under the
supervision of predicted 2D bounding boxes from 2D pre-trained detectors.
Moreover, we propose a novel de-biased triplet cross-modal contrastive learning
to connect the modalities of image, point-cloud and text, thereby enabling the
point-cloud detector to benefit from vision-language pre-trained
models,i.e.,CLIP. The novel use of image and vision-language pre-trained models
for point-cloud detectors allows for open-vocabulary 3D object detection
without the need for 3D annotations. Experiments demonstrate that the proposed
method improves at least 3.03 points and 7.47 points over a wide range of
baselines on the ScanNet and SUN RGB-D datasets, respectively. Furthermore, we
provide a comprehensive analysis to explain why our approach works.
- Abstract(参考訳): open-vocabulary detectionの目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
本稿では,オープンな3次元ポイントクラウド検出を分割・コンカレンス戦略により解決する。
1)各種オブジェクトのローカライズのための汎用表現を学習可能なポイントクラウド検出器の開発
2)テキスト表現とポイントクラウド表現を接続することで,検出者がテキストプロンプトに基づいて新たなオブジェクトカテゴリを分類できる。
具体的には、2dプリトレーニングされた検出器から予測された2dバウンディングボックスの監督下で、ポイントクラウド検出器がオブジェクトのローカライズを学習するリッチイメージプリトレーニングモデルを用いる。
さらに,画像,点雲,テキストのモダリティを結合し,視覚言語による事前学習モデル(CLIP)の恩恵を受けるために,非偏差三重項比較学習を提案する。
ポイントクラウド検出器に画像と視覚言語を事前訓練した新しいモデルを使用することで、3Dアノテーションを必要とせずにオープンな3Dオブジェクト検出が可能になる。
実験により,ScanNet および SUN RGB-D データセット上での幅広いベースラインに対して,少なくとも 3.03 点と 7.47 点の改善が得られた。
さらに,アプローチが機能する理由を説明するために,包括的な分析を行う。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Objects as Spatio-Temporal 2.5D points [5.588892124219713]
本研究では,ネットワークの単一フィードフォワードパスにおける2次元物体検出シーンの深度予測を協調学習することにより,物体の3次元位置を推定する弱い教師付き手法を提案する。
提案手法は,単点型オブジェクト検出装置を拡張し,各オブジェクトを時間的にBEVとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:14:30Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Open-Vocabulary 3D Detection via Image-level Class and Debiased
Cross-modal Contrastive Learning [62.18197846270103]
現在の点雲検出法では,実世界の開語彙を検出するのが困難である。
画像レベルのクラス管理を用いたオープン語彙3DDETectorであるOV-3DETICを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:13:52Z) - 3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive
Selection [35.5386998382886]
3Dビジュアルグラウンドは、自由形式の言語記述に従って、3Dポイントクラウドシーンで参照対象物を見つけることを目的としている。
従来の手法は主に2段階のパラダイム、すなわち言語非関連検出とクロスモーダルマッチングに従う。
本稿では,言語指導を用いてキーポイントを段階的に選択し,ターゲットを直接特定する3Dシングルステージ参照ポイントプログレッシブ選択法を提案する。
論文 参考訳(メタデータ) (2022-04-13T09:46:27Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。