論文の概要: The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning
- arxiv url: http://arxiv.org/abs/2501.09485v1
- Date: Thu, 16 Jan 2025 11:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:10.718075
- Title: The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning
- Title(参考訳): The Devil is in the details: Simple Remedies for Image-to-LiDAR Representation Learning
- Authors: Wonjun Jo, Kwon Byung-Ki, Kim Ji-Yeon, Hawook Jeong, Kyungdon Joo, Tae-Hyun Oh,
- Abstract要約: 我々は、空間的および時間的軸に沿って見過ごされた設計選択に焦点を当てる。
基本設計要素、例えばLiDAR座標系、既存の入力インタフェースによる量子化は、損失関数の開発よりも重要である。
- 参考スコア(独自算出の注目度): 21.088879084249328
- License:
- Abstract: LiDAR is a crucial sensor in autonomous driving, commonly used alongside cameras. By exploiting this camera-LiDAR setup and recent advances in image representation learning, prior studies have shown the promising potential of image-to-LiDAR distillation. These prior arts focus on the designs of their own losses to effectively distill the pre-trained 2D image representations into a 3D model. However, the other parts of the designs have been surprisingly unexplored. We find that fundamental design elements, e.g., the LiDAR coordinate system, quantization according to the existing input interface, and data utilization, are more critical than developing loss functions, which have been overlooked in prior works. In this work, we show that simple fixes to these designs notably outperform existing methods by 16% in 3D semantic segmentation on the nuScenes dataset and 13% in 3D object detection on the KITTI dataset in downstream task performance. We focus on overlooked design choices along the spatial and temporal axes. Spatially, prior work has used cylindrical coordinate and voxel sizes without considering their side effects yielded with a commonly deployed sparse convolution layer input interface, leading to spatial quantization errors in 3D models. Temporally, existing work has avoided cumbersome data curation by discarding unsynced data, limiting the use to only the small portion of data that is temporally synced across sensors. We analyze these effects and propose simple solutions for each overlooked aspect.
- Abstract(参考訳): LiDARは自動運転において重要なセンサーであり、一般的にカメラと共に使用される。
このカメラ-LiDARセットアップと画像表現学習の最近の進歩を利用して、従来の研究では、画像-LiDAR蒸留の有望な可能性を示している。
これらの先行技術は、事前訓練された2D画像表現を3Dモデルに効果的に蒸留するために、自身の損失の設計に焦点を当てている。
しかし、デザインの他の部分は驚くほど解明されていない。
従来見過ごされてきた損失関数の開発よりも,LiDAR座標系,既存の入力インタフェースによる量子化,データ利用といった基本的な設計要素が重要であることがわかった。
本研究では,これらの設計の簡単な修正により, nuScenesデータセットの3Dセマンティックセマンティックセグメンテーションが16%, KITTIデータセットの3Dオブジェクト検出が13%,ダウンストリームタスク性能が16%向上したことを示す。
我々は、空間的および時間的軸に沿って見過ごされた設計選択に焦点を当てる。
空間的には、従来の研究は、一般的に配置されたスパース畳み込み層入力インタフェースによって生じる副作用を考慮せずに、円筒座標とボクセルサイズを用いており、3次元モデルにおける空間量子化誤差をもたらす。
時として、既存の作業は、未同期のデータを捨てて、時間的にセンサー間で同期されるデータのごく一部に制限することで、面倒なデータキュレーションを避けてきた。
これらの効果を解析し、見過ごされた各側面に対する簡単な解を提案する。
関連論文リスト
- Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.66283064389691]
最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T15:21:57Z) - PruNeRF: Segment-Centric Dataset Pruning via 3D Spatial Consistency [33.68948881727943]
PruNeRFは3次元空間整合性によるセグメント中心のデータセットプルーニングフレームワークである。
ベンチマークデータセットを用いた実験により、PruNeRFは邪魔者に対するロバスト性において、最先端の手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-06-02T16:49:05Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Review of data types and model dimensionality for cardiac DTI
SMS-related artefact removal [7.497343031315105]
人工物除去訓練モデルの性能に及ぼす複数の入力型(マグニチュード画像と複素画像)、複数次元(2次元と3次元の操作)、複数入力型(単スライスとマルチスライス)の影響を比較した。
最初の直観にもかかわらず、我々の実験は、固定数のパラメータに対して、より単純な2次元実数値モデルの方が、より高度な3Dまたは複雑なモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-09-20T07:41:24Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Learning-based Point Cloud Registration for 6D Object Pose Estimation in
the Real World [55.7340077183072]
我々は、ポイントクラウドデータからオブジェクトの6Dポーズを推定するタスクに取り組む。
この課題に対処する最近の学習ベースのアプローチは、合成データセットにおいて大きな成功を収めている。
これらの障害の原因を分析し、ソースとターゲットポイントの雲の特徴分布の違いに遡る。
論文 参考訳(メタデータ) (2022-03-29T07:55:04Z) - Lidar-Monocular Surface Reconstruction Using Line Segments [5.542669744873386]
LIDARスキャンと画像データの両方で検出される一般的な幾何学的特徴を利用して、2つのセンサからのデータを高レベル空間で処理することを提案する。
提案手法は, 高精度な地中真理推定を必要とせず, 最先端のLIDARサーベイに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-06T19:49:53Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。