論文の概要: 2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic
Segmentation on Point Cloud
- arxiv url: http://arxiv.org/abs/2309.11755v1
- Date: Thu, 21 Sep 2023 03:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:02:44.387076
- Title: 2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic
Segmentation on Point Cloud
- Title(参考訳): 2ddata:ポイントクラウド上の意味セグメンテーションのための2次元検出アノテーションの透過可能アグリゲーション
- Authors: Guan-Cheng Lee
- Abstract要約: これまでの研究を継承して、上記の課題を伴わずにマルチモダリティから情報を融合するだけでなく、RGBモダリティの情報を排出する。
提案手法は, モデルエンコーダにバウンディングボックスの事前情報を送信し, モダリティデータと融合した大規模マルチモーダリティモデルの実現可能性を示すものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multi-modality models have been introduced because of the
complementary information from different sensors such as LiDAR and cameras. It
requires paired data along with precise calibrations for all modalities, the
complicated calibration among modalities hugely increases the cost of
collecting such high-quality datasets, and hinder it from being applied to
practical scenarios. Inherit from the previous works, we not only fuse the
information from multi-modality without above issues, and also exhaust the
information in the RGB modality. We introduced the 2D Detection Annotations
Transmittable Aggregation(\textbf{2DDATA}), designing a data-specific branch,
called \textbf{Local Object Branch}, which aims to deal with points in a
certain bounding box, because of its easiness of acquiring 2D bounding box
annotations. We demonstrate that our simple design can transmit bounding box
prior information to the 3D encoder model, proving the feasibility of large
multi-modality models fused with modality-specific data.
- Abstract(参考訳): 近年,LiDARやカメラなどのセンサの相補的な情報により,マルチモダリティモデルが導入された。
すべてのモダリティの正確なキャリブレーションとともにペアデータが必要であり、モダリティ間の複雑なキャリブレーションは、このような高品質なデータセットの収集コストを大幅に増加させ、実用的なシナリオに適用できないようにする。
これまでの研究を継承して、上記の課題を伴わずにマルチモダリティから情報を融合するだけでなく、RGBモダリティの情報を排出する。
2d検出アノテーション transmissiontable aggregation(\textbf{2ddata})を導入し、特定のバウンディングボックス内のポイントを扱うことを目的とした、データ固有のブランチである \textbf{local object branch} を設計しました。
提案手法は,3次元エンコーダモデルに有界箱の事前情報を送信し,モダリティ固有データと融合した大規模マルチモーダリティモデルの実現可能性を示す。
関連論文リスト
- Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - CL3D: Unsupervised Domain Adaptation for Cross-LiDAR 3D Detection [16.021932740447966]
クロスLiDAR3D検出のためのドメイン適応は、生データ表現に大きなギャップがあるため困難である。
以上の課題を克服する、教師なしのドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T03:22:55Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - CAT-Det: Contrastively Augmented Transformer for Multi-modal 3D Object
Detection [32.06145370498289]
マルチモーダル3Dオブジェクト検出(CAT-Det)のためのコントラスト変換器を提案する。
CAT-DetはPointformer (PT) ブランチと Imageformer (IT) ブランチとCMT (Cross-Modal Transformer) モジュールで構成される2ストリーム構造を採用している。
本稿では,一方向マルチモーダルデータ拡張(OMDA)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T10:07:25Z) - Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-02T04:51:31Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。