論文の概要: Zero-shot detection of buildings in mobile LiDAR using Language Vision Model
- arxiv url: http://arxiv.org/abs/2404.09931v1
- Date: Mon, 15 Apr 2024 16:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:37:46.224038
- Title: Zero-shot detection of buildings in mobile LiDAR using Language Vision Model
- Title(参考訳): 言語視覚モデルを用いた移動体LiDARのゼロショット検出
- Authors: June Moh Goo, Zichao Zeng, Jan Boehm,
- Abstract要約: 言語ビジョンモデル(LVM)は、2次元(2次元)コンピュータビジョンタスクにおいて、既存のステート・オブ・ザ・アート(SOTA)を上回っている。
3Dデータを表す代表的なフォーマットであるポイントクラウドに関して、LVMは重大な課題に直面している。
本研究の目的は,1)球面投影による接地SAMを3次元から2次元への移動に適用し,2)合成データを用いてその有効性を評価することである。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances have demonstrated that Language Vision Models (LVMs) surpass the existing State-of-the-Art (SOTA) in two-dimensional (2D) computer vision tasks, motivating attempts to apply LVMs to three-dimensional (3D) data. While LVMs are efficient and effective in addressing various downstream 2D vision tasks without training, they face significant challenges when it comes to point clouds, a representative format for representing 3D data. It is more difficult to extract features from 3D data and there are challenges due to large data sizes and the cost of the collection and labelling, resulting in a notably limited availability of datasets. Moreover, constructing LVMs for point clouds is even more challenging due to the requirements for large amounts of data and training time. To address these issues, our research aims to 1) apply the Grounded SAM through Spherical Projection to transfer 3D to 2D, and 2) experiment with synthetic data to evaluate its effectiveness in bridging the gap between synthetic and real-world data domains. Our approach exhibited high performance with an accuracy of 0.96, an IoU of 0.85, precision of 0.92, recall of 0.91, and an F1 score of 0.92, confirming its potential. However, challenges such as occlusion problems and pixel-level overlaps of multi-label points during spherical image generation remain to be addressed in future studies.
- Abstract(参考訳): 最近の進歩により、LVM(Language Vision Models)は2次元(2次元)コンピュータビジョンタスクにおいて既存のSOTA(State-of-the-Art)を超越し、LVMを3次元(3次元)データに適用しようとする試みを動機付けていることが示されている。
LVMは、トレーニングなしでさまざまな下流2Dビジョンタスクに対処する上で効率的かつ効果的ですが、ポイントクラウド(3Dデータを表現するための代表的なフォーマット)に関しては、大きな課題に直面しています。
3Dデータから特徴を引き出すのが難しく、大規模なデータサイズとコレクションとラベル付けのコストが問題になるため、データセットの可用性が著しく制限される。
さらに、大量のデータとトレーニング時間を必要とするため、ポイントクラウド用のLVMの構築はさらに難しい。
これらの問題に対処するために、我々の研究は、
1)球面投影による接地SAMを3次元から2次元への移動に適用し、
2) 合成データを用いて, 合成データ領域と実世界のデータ領域とのギャップを埋めることの有効性を評価する。
提案手法は精度0.96,IoU0.85,精度0.92,リコール0.91,F1スコア0.92で高い性能を示し,その可能性を確認した。
しかし、球面画像生成におけるオクルージョン問題やマルチラベル点の画素レベルの重複といった課題は、今後の研究で解決される。
関連論文リスト
- Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection [9.708971995966476]
本稿では,これらの課題に対処するための2段階のトレーニング戦略を紹介する。
当社のアプローチでは,大規模合成データセットであるRoadSense3Dのモデルをトレーニングしています。
実世界のデータセットの組み合わせでモデルを微調整し、実用条件への適応性を高める。
論文 参考訳(メタデータ) (2024-08-28T08:44:58Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Efficient Urban-scale Point Clouds Segmentation with BEV Projection [0.0]
ほとんどのディープポイントクラウドモデルは、直接3Dポイントクラウド上で学習を行います。
本稿では,高密度の鳥眼視射影に3次元点雲を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-19T06:49:59Z) - Learning to Drop Points for LiDAR Scan Synthesis [5.132259673802809]
3Dシーンのジェネラティブモデリングは、モバイルロボットが信頼できない観察を改善するための重要なトピックです。
点雲に関する既存の研究のほとんどは、小さく均一な密度のデータに焦点を当てている。
移動ロボットで広く使われている3次元LiDAR点雲は、多数の点と様々な密度のために扱いにくい。
本論文では,リアルなLiDARデータを改良した2次元表現として合成する,ジェネレーティブ・アドバーサリ・ネットワークに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T21:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。