Fugu-MT 論文翻訳(概要): You Only Label Once: 3D Box Adaptation from Point Cloud to Image via Semi-Supervised Learning

論文の概要: You Only Label Once: 3D Box Adaptation from Point Cloud to Image via Semi-Supervised Learning

arxiv url: http://arxiv.org/abs/2211.09302v1
Date: Thu, 17 Nov 2022 02:28:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 16:09:59.362023
Title: You Only Label Once: 3D Box Adaptation from Point Cloud to Image via Semi-Supervised Learning
Title（参考訳）: 一度だけラベルを付ける: ポイントクラウドから画像への3Dボックス適応
Authors: Jieqi Shi, Peiliang Li, Xiaozhi Chen, Shaojie Shen
Abstract要約: 本研究では,パノラマカメラの外観を完璧に適合させるために,Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整する学習型3Dボックス適応手法を提案する。これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減する。
参考スコア（独自算出の注目度）: 34.087139118297706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The image-based 3D object detection task expects that the predicted 3D bounding box has a ``tightness'' projection (also referred to as cuboid), which fits the object contour well on the image while still keeping the geometric attribute on the 3D space, e.g., physical dimension, pairwise orthogonal, etc. These requirements bring significant challenges to the annotation. Simply projecting the Lidar-labeled 3D boxes to the image leads to non-trivial misalignment, while directly drawing a cuboid on the image cannot access the original 3D information. In this work, we propose a learning-based 3D box adaptation approach that automatically adjusts minimum parameters of the 360$^{\circ}$ Lidar 3D bounding box to perfectly fit the image appearance of panoramic cameras. With only a few 2D boxes annotation as guidance during the training phase, our network can produce accurate image-level cuboid annotations with 3D properties from Lidar boxes. We call our method ``you only label once'', which means labeling on the point cloud once and automatically adapting to all surrounding cameras. As far as we know, we are the first to focus on image-level cuboid refinement, which balances the accuracy and efficiency well and dramatically reduces the labeling effort for accurate cuboid annotation. Extensive experiments on the public Waymo and NuScenes datasets show that our method can produce human-level cuboid annotation on the image without needing manual adjustment.
Abstract（参考訳）: 画像ベースの3Dオブジェクト検出タスクは、予測された3Dバウンディングボックスが、物体の輪郭を画像によく適合させながら、3D空間上の幾何学的属性を保ちながら、例えば、物理的次元、対方向直交等を保った ''tightness''' プロジェクション(立方体とも呼ばれる)を有することを期待する。これらの要件はアノテーションに重大な課題をもたらします。画像にLidarでラベル付けされた3Dボックスを投影するだけで、画像にキューブを直接描画しても元の3D情報にはアクセスできない。本研究では,360$^{\circ}$ Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整し,パノラマカメラの外観を完璧に適合させる学習型3Dボックス適応手法を提案する。トレーニング段階では2dボックスアノテーションのみを指導することで,lidarボックスから3dプロパティを備えた正確な画像レベルのcuboidアノテーションを生成できる。私たちのメソッドを ‘you only label once'' と呼びます。つまり、ポイントクラウドにラベルを付け、周囲のすべてのカメラに自動的に適応します。これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減します。公開waymoおよびnuscenesデータセットの広範な実験により,手作業による調整を必要とせず,画像上に人間レベルのcuboidアノテーションを生成できることが確認された。

関連論文リスト

Multi-Modal Assistance for Unsupervised Domain Adaptation on Point Cloud 3D Object Detection [3.3062934610311436]
本稿では,マルチモーダルアシストによる3次元UDAの性能向上を目的としたMMAssistという手法を提案する。画像特徴とテキスト特徴をブリッジとして使用することにより、ソースドメインとターゲットドメインの3D特徴を整列するように設計されている。実験結果から,本手法は3つの領域適応タスクにおける最先端手法と比較して有望な性能を達成できることが示唆された。
論文参考訳（メタデータ） (2025-11-11T08:27:22Z)
Integrating SAM Supervision for 3D Weakly Supervised Point Cloud Segmentation [66.65719382619538]
3Dセマンティックセグメンテーションの現在の手法では、大きな、不規則な、秩序のない3Dポイントクラウドデータの注釈付けの難しさに対処するため、限定アノテーション付きトレーニングモデルが提案されている。本稿では,2次元基礎モデルから生成したセグメンテーションマスクを組み込んだ,疎可な3次元アノテーションの有用性を最大化する手法を提案する。
論文参考訳（メタデータ） (2025-08-27T14:13:01Z)
General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。 KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文参考訳（メタデータ） (2024-07-18T17:52:08Z)
Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts [50.181870446016376]
本稿では,2Dポイントやボックスプロンプトから3Dオブジェクトを自動的にラベル付けするアルゴリズムを提案する。従来のアートとは異なり、自動ラベルはバウンディングボックスの代わりに3D形状を予測し、特定のデータセットのトレーニングを必要としない。
論文参考訳（メタデータ） (2024-07-16T04:53:28Z)
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文参考訳（メタデータ） (2024-06-04T07:42:33Z)
View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。 3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。 DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文参考訳（メタデータ） (2024-04-11T17:58:11Z)
Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文参考訳（メタデータ） (2023-12-12T18:57:25Z)
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。 2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文参考訳（メタデータ） (2023-11-09T15:51:27Z)
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。実験結果を実証し,本手法の有効性について考察する。
論文参考訳（メタデータ） (2023-09-07T08:14:46Z)
Generating Images with 3D Annotations Using Diffusion Models [32.77912877963642]
拡散モデルに3次元幾何制御を組み込んだ3次元拡散スタイル転送(3D-DST)を提案する。提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。明示的な3次元幾何制御により、生成画像中のオブジェクトの3次元構造を容易に変更し、グラウンドトルース3Dを自動的に得ることができる。
論文参考訳（メタデータ） (2023-06-13T19:48:56Z)
WeakM3D: Towards Weakly Supervised Monocular 3D Object Detection [29.616568669869206]
既存のモノクロ3D検出方法は、LiDAR点雲上の手動で注釈付けされた3Dボックスラベルに依存している。本稿では,まず画像上の2Dボックスをまず検出し,次に生成された2Dボックスを用いて,対応するRoI LiDAR点を弱監視として選択する。このネットワークは、新たに提案した3Dボックス推定値と対応するRoI LiDAR点とのアライメント損失を最小化することによって学習される。
論文参考訳（メタデータ） (2022-03-16T00:37:08Z)
Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文参考訳（メタデータ） (2021-10-27T06:53:53Z)
3D Shape Segmentation with Geometric Deep Learning [2.512827436728378]
本稿では,部分分割問題としてセグメント化全体を解くために,3次元形状の3次元拡張ビューを生成するニューラルネットワークベースのアプローチを提案する。提案手法は,公開データセットの3次元形状と,フォトグラム法を用いて再構成した実物体を用いて検証する。
論文参考訳（メタデータ） (2020-02-02T14:11:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。