論文の概要: Open-Vocabulary 3D Detection via Image-level Class and Debiased
Cross-modal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2207.01987v1
- Date: Tue, 5 Jul 2022 12:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:54:33.558575
- Title: Open-Vocabulary 3D Detection via Image-level Class and Debiased
Cross-modal Contrastive Learning
- Title(参考訳): 画像レベルクラスとdebiased cross-modal contrastive learningによる開語彙3次元検出
- Authors: Yuheng Lu, Chenfeng Xu, Xiaobao Wei, Xiaodong Xie, Masayoshi Tomizuka,
Kurt Keutzer, Shanghang Zhang
- Abstract要約: 現在の点雲検出法では,実世界の開語彙を検出するのが困難である。
画像レベルのクラス管理を用いたオープン語彙3DDETectorであるOV-3DETICを提案する。
- 参考スコア(独自算出の注目度): 62.18197846270103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current point-cloud detection methods have difficulty detecting the
open-vocabulary objects in the real world, due to their limited generalization
capability. Moreover, it is extremely laborious and expensive to collect and
fully annotate a point-cloud detection dataset with numerous classes of
objects, leading to the limited classes of existing point-cloud datasets and
hindering the model to learn general representations to achieve open-vocabulary
point-cloud detection. As far as we know, we are the first to study the problem
of open-vocabulary 3D point-cloud detection. Instead of seeking a point-cloud
dataset with full labels, we resort to ImageNet1K to broaden the vocabulary of
the point-cloud detector. We propose OV-3DETIC, an Open-Vocabulary 3D DETector
using Image-level Class supervision. Specifically, we take advantage of two
modalities, the image modality for recognition and the point-cloud modality for
localization, to generate pseudo labels for unseen classes. Then we propose a
novel debiased cross-modal contrastive learning method to transfer the
knowledge from image modality to point-cloud modality during training. Without
hurting the latency during inference, OV-3DETIC makes the point-cloud detector
capable of achieving open-vocabulary detection. Extensive experiments
demonstrate that the proposed OV-3DETIC achieves at least 10.77 % mAP
improvement (absolute value) and 9.56 % mAP improvement (absolute value) by a
wide range of baselines on the SUN-RGBD dataset and ScanNet dataset,
respectively. Besides, we conduct sufficient experiments to shed light on why
the proposed OV-3DETIC works.
- Abstract(参考訳): 現在の点雲検出法は,その限定的な一般化能力のため,実世界の開語彙を検出するのが困難である。
さらに、多数のオブジェクトのクラスでポイントクラウド検出データセットを収集し、完全に注釈付けすることは極めて困難であり、既存のポイントクラウドデータセットの限られたクラスにつながり、オープン語彙のポイントクラウド検出を実現するために一般的な表現を学ぶのを妨げる。
私たちが知る限り、我々はオープンな3Dポイントクラウド検出の問題を初めて研究している。
完全なラベル付きポイントクラウドデータセットを探す代わりに、ImageNet1Kを使用してポイントクラウド検出器の語彙を広げます。
画像レベルのクラス管理を用いたオープン語彙3DDETectorであるOV-3DETICを提案する。
具体的には、認識のためのイメージモダリティとローカライゼーションのためのポイントクラウドモダリティという2つのモダリティを利用して、見当たらないクラスのための擬似ラベルを生成する。
そこで本研究では,画像のモダリティからポイントクラウドのモダリティへ知識を伝達する,新しい非バイアス型クロスモーダルコントラスト学習手法を提案する。
推論中のレイテンシを損なうことなく、OV-3DETICは開語彙検出が可能なポイントクラウド検出器を提供する。
OV-3DETICは、SUN-RGBDデータセットとScanNetデータセットの幅広いベースラインによって、少なくとも10.77 % mAP改善(絶対値)と9.56 % mAP改善(絶対値)を達成することを示した。
さらに,提案するov-3detic 作用の解明に十分な実験を行った。
関連論文リスト
- Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Data Augmentation-free Unsupervised Learning for 3D Point Cloud
Understanding [61.30276576646909]
ソフトクラスタリング(SoftClu)と呼ばれる,移動可能な点レベルの特徴を学習するための,ポイントクラウドに対する拡張不要な教師なしアプローチを提案する。
我々は,クラスタに対するポイントのアフィリエイトをプロキシとして利用し,擬似ラベル予測タスクを通じて自己学習を可能にする。
論文 参考訳(メタデータ) (2022-10-06T10:18:16Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - R-AGNO-RPN: A LIDAR-Camera Region Deep Network for Resolution-Agnostic
Detection [3.4761212729163313]
3次元点雲とRGB画像を融合した領域提案ネットワークR-AGNO-RPNを提案する。
私たちのアプローチは、低点のクラウド解像度にも適用できるように設計されています。
論文 参考訳(メタデータ) (2020-12-10T15:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。