論文の概要: You Only Label Once: 3D Box Adaptation from Point Cloud to Image via
Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2211.09302v2
- Date: Tue, 12 Sep 2023 16:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:50:12.133078
- Title: You Only Label Once: 3D Box Adaptation from Point Cloud to Image via
Semi-Supervised Learning
- Title(参考訳): 一度だけラベルを付ける: ポイントクラウドから画像への3Dボックス適応
- Authors: Jieqi Shi, Peiliang Li, Xiaozhi Chen, Shaojie Shen
- Abstract要約: 本研究では,パノラマカメラの外観を完璧に適合させるために,Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整する学習型3Dボックス適応手法を提案する。
これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減する。
- 参考スコア(独自算出の注目度): 31.914887148307706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The image-based 3D object detection task expects that the predicted 3D
bounding box has a ``tightness'' projection (also referred to as cuboid), which
fits the object contour well on the image while still keeping the geometric
attribute on the 3D space, e.g., physical dimension, pairwise orthogonal, etc.
These requirements bring significant challenges to the annotation. Simply
projecting the Lidar-labeled 3D boxes to the image leads to non-trivial
misalignment, while directly drawing a cuboid on the image cannot access the
original 3D information. In this work, we propose a learning-based 3D box
adaptation approach that automatically adjusts minimum parameters of the
360$^{\circ}$ Lidar 3D bounding box to perfectly fit the image appearance of
panoramic cameras. With only a few 2D boxes annotation as guidance during the
training phase, our network can produce accurate image-level cuboid annotations
with 3D properties from Lidar boxes. We call our method ``you only label
once'', which means labeling on the point cloud once and automatically adapting
to all surrounding cameras. As far as we know, we are the first to focus on
image-level cuboid refinement, which balances the accuracy and efficiency well
and dramatically reduces the labeling effort for accurate cuboid annotation.
Extensive experiments on the public Waymo and NuScenes datasets show that our
method can produce human-level cuboid annotation on the image without needing
manual adjustment.
- Abstract(参考訳): 画像ベースの3Dオブジェクト検出タスクは、予測された3Dバウンディングボックスが、物体の輪郭を画像によく適合させながら、3D空間上の幾何学的属性を保ちながら、例えば、物理的次元、対方向直交等を保った ''tightness''' プロジェクション(立方体とも呼ばれる)を有することを期待する。
これらの要件はアノテーションに重大な課題をもたらします。
画像にLidarでラベル付けされた3Dボックスを投影するだけで、画像にキューブを直接描画しても元の3D情報にはアクセスできない。
本研究では,360$^{\circ}$ Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整し,パノラマカメラの外観を完璧に適合させる学習型3Dボックス適応手法を提案する。
トレーニング段階では2dボックスアノテーションのみを指導することで,lidarボックスから3dプロパティを備えた正確な画像レベルのcuboidアノテーションを生成できる。
私たちのメソッドを ‘you only label once'' と呼びます。つまり、ポイントクラウドにラベルを付け、周囲のすべてのカメラに自動的に適応します。
これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減します。
公開waymoおよびnuscenesデータセットの広範な実験により,手作業による調整を必要とせず,画像上に人間レベルのcuboidアノテーションを生成できることが確認された。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts [50.181870446016376]
本稿では,2Dポイントやボックスプロンプトから3Dオブジェクトを自動的にラベル付けするアルゴリズムを提案する。
従来のアートとは異なり、自動ラベルはバウンディングボックスの代わりに3D形状を予測し、特定のデータセットのトレーニングを必要としない。
論文 参考訳(メタデータ) (2024-07-16T04:53:28Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - Generating Images with 3D Annotations Using Diffusion Models [32.77912877963642]
拡散モデルに3次元幾何制御を組み込んだ3次元拡散スタイル転送(3D-DST)を提案する。
提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。
明示的な3次元幾何制御により、生成画像中のオブジェクトの3次元構造を容易に変更し、グラウンドトルース3Dを自動的に得ることができる。
論文 参考訳(メタデータ) (2023-06-13T19:48:56Z) - WeakM3D: Towards Weakly Supervised Monocular 3D Object Detection [29.616568669869206]
既存のモノクロ3D検出方法は、LiDAR点雲上の手動で注釈付けされた3Dボックスラベルに依存している。
本稿では,まず画像上の2Dボックスをまず検出し,次に生成された2Dボックスを用いて,対応するRoI LiDAR点を弱監視として選択する。
このネットワークは、新たに提案した3Dボックス推定値と対応するRoI LiDAR点とのアライメント損失を最小化することによって学習される。
論文 参考訳(メタデータ) (2022-03-16T00:37:08Z) - Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning
of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。
我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文 参考訳(メタデータ) (2021-10-27T06:53:53Z) - 3D Shape Segmentation with Geometric Deep Learning [2.512827436728378]
本稿では,部分分割問題としてセグメント化全体を解くために,3次元形状の3次元拡張ビューを生成するニューラルネットワークベースのアプローチを提案する。
提案手法は,公開データセットの3次元形状と,フォトグラム法を用いて再構成した実物体を用いて検証する。
論文 参考訳(メタデータ) (2020-02-02T14:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。