論文の概要: Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2309.14491v1
- Date: Mon, 25 Sep 2023 19:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 16:06:54.237855
- Title: Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving
- Title(参考訳): 自律運転用2次元ビジョンランゲージ蒸留による教師なし3次元知覚
- Authors: Mahyar Najibi, Jingwei Ji, Yin Zhou, Charles R. Qi, Xinchen Yan, Scott
Ettinger, Dragomir Anguelov
- Abstract要約: 本研究では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3次元境界ボックスとトラックレットを生成できるマルチモーダル自動ラベルパイプラインを提案する。
私たちのパイプラインは、ポイントクラウドシーケンスに固有のモーションキューと、利用可能な2Dイメージテキストペアを組み合わせて、すべてのトラフィック参加者を特定し、追跡します。
- 参考スコア(独自算出の注目度): 39.70689418558153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Closed-set 3D perception models trained on only a pre-defined set of object
categories can be inadequate for safety critical applications such as
autonomous driving where new object types can be encountered after deployment.
In this paper, we present a multi-modal auto labeling pipeline capable of
generating amodal 3D bounding boxes and tracklets for training models on
open-set categories without 3D human labels. Our pipeline exploits motion cues
inherent in point cloud sequences in combination with the freely available 2D
image-text pairs to identify and track all traffic participants. Compared to
the recent studies in this domain, which can only provide class-agnostic auto
labels limited to moving objects, our method can handle both static and moving
objects in the unsupervised manner and is able to output open-vocabulary
semantic labels thanks to the proposed vision-language knowledge distillation.
Experiments on the Waymo Open Dataset show that our approach outperforms the
prior work by significant margins on various unsupervised 3D perception tasks.
- Abstract(参考訳): 事前定義されたオブジェクトカテゴリのみに基づいてトレーニングされたクローズドセット3d知覚モデルは、デプロイ後に新しいオブジェクトタイプに遭遇できる自動運転のような安全上重要な応用には不十分である。
本稿では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3Dバウンディングボックスとトラックレットを生成するマルチモーダル自動ラベリングパイプラインを提案する。
当社のパイプラインでは,ポイントクラウドシーケンスに固有なモーションキューと,利用可能な2dイメージテキストペアを組み合わせて,すべてのトラフィック参加者を特定し追跡する。
移動対象に限定したクラス非依存のオートラベルしか提供できないこの領域の最近の研究と比較すると、この手法は静的オブジェクトと移動オブジェクトの両方を教師なしの方法で処理でき、視覚言語知識蒸留によりオープンボキャブラリーセマンティクスラベルを出力できる。
Waymo Open Datasetの実験によると、我々のアプローチは、教師なしの様々な3D知覚タスクにおいて、これまでの作業よりも大幅に向上している。
関連論文リスト
- Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。
本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:48:42Z) - Vision-Language Guidance for LiDAR-based Unsupervised 3D Object Detection [16.09503890891102]
我々は,LiDAR点雲のみで動作する教師なし3次元検出手法を提案する。
我々は、クラスタリング、トラッキング、ボックステキスト、ラベルリファインメントなど、LiDARポイントクラウドの固有のCLI時間知識を活用している。
提案手法はオープンデータセット上での最先端の非教師なし3Dオブジェクト検出器よりも優れている。
論文 参考訳(メタデータ) (2024-08-07T14:14:53Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training [9.272389295055271]
本研究では,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。
提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
論文 参考訳(メタデータ) (2023-10-02T06:17:24Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Learning Monocular 3D Vehicle Detection without 3D Bounding Box Labels [0.09558392439655011]
3Dオブジェクト検出器のトレーニングには、3Dバウンディングボックスラベルを持つデータセットが必要である。
本稿では,3次元境界ボックスラベルを使わずにモノラルな3次元物体検出を学習するためのネットワークアーキテクチャとトレーニング手順を提案する。
提案アルゴリズムを実世界のKITTIデータセット上で評価し,トレーニングに3Dバウンディングボックスラベルを必要とする最先端の手法と比較して有望な性能を実現する。
論文 参考訳(メタデータ) (2020-10-07T16:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。