論文の概要: TexLiDAR: Automated Text Understanding for Panoramic LiDAR Data
- arxiv url: http://arxiv.org/abs/2502.04385v2
- Date: Fri, 21 Feb 2025 16:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:50.246812
- Title: TexLiDAR: Automated Text Understanding for Panoramic LiDAR Data
- Title(参考訳): TexLiDAR:パノラマLiDARデータの自動テキスト理解
- Authors: Naor Cohen, Roy Orfaig, Ben-Zion Bobrovsky,
- Abstract要約: LidarCLIPのようなテキストとLiDARデータを接続する努力は、主にCLIPテキストイメージスペースに3Dポイントクラウドを埋め込むことに重点を置いている。
3次元点雲の代わりにOS1センサによって生成された2次元画像を活用することで、LiDARデータをテキストで接続する代替手法を提案する。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License:
- Abstract: Efforts to connect LiDAR data with text, such as LidarCLIP, have primarily focused on embedding 3D point clouds into CLIP text-image space. However, these approaches rely on 3D point clouds, which present challenges in encoding efficiency and neural network processing. With the advent of advanced LiDAR sensors like Ouster OS1, which, in addition to 3D point clouds, produce fixed resolution depth, signal, and ambient panoramic 2D images, new opportunities emerge for LiDAR based tasks. In this work, we propose an alternative approach to connect LiDAR data with text by leveraging 2D imagery generated by the OS1 sensor instead of 3D point clouds. Using the Florence 2 large model in a zero-shot setting, we perform image captioning and object detection. Our experiments demonstrate that Florence 2 generates more informative captions and achieves superior performance in object detection tasks compared to existing methods like CLIP. By combining advanced LiDAR sensor data with a large pre-trained model, our approach provides a robust and accurate solution for challenging detection scenarios, including real-time applications requiring high accuracy and robustness.
- Abstract(参考訳): LidarCLIPのようなテキストとLiDARデータを接続する努力は、主にCLIPテキストイメージ空間に3Dポイントクラウドを埋め込むことに重点を置いている。
しかし、これらのアプローチは3Dポイントクラウドに依存しており、エンコーディング効率とニューラルネットワーク処理の課題を提示している。
Ouster OS1のような先進的なLiDARセンサーが登場し、3Dポイントクラウドに加えて、固定解像度の深さ、信号、周囲パノラマ2D画像を生成することで、LiDARベースのタスクに新たな機会が生まれる。
そこで本研究では,OS1センサが生成する2次元画像を利用して,LDARデータをテキストで接続する手法を提案する。
ゼロショット設定でフローレンス2大モデルを用いて画像キャプションと物体検出を行う。
実験により,フローレンス2はより情報的なキャプションを生成し,CLIPなどの既存手法と比較してオブジェクト検出タスクにおいて優れた性能を発揮することが示された。
先進的なLiDARセンサデータを大きな事前学習モデルと組み合わせることで、高精度で堅牢な検出シナリオを実現するための堅牢で正確なソリューションを提供する。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Sparse-to-Dense LiDAR Point Generation by LiDAR-Camera Fusion for 3D Object Detection [9.076003184833557]
2D画像特徴を融合させてLiDARポイントクラウドデータを再構成する新しいフレームワークであるLiDAR-Camera Augmentation Network (LCANet)を提案する。
LCANetは、画像特徴を3D空間に投影し、意味情報をポイントクラウドデータに統合することで、LiDARセンサーからのデータを融合する。
この融合は、しばしばスパースポイントで表される長距離物体の検出におけるLiDARの弱点を効果的に補う。
論文 参考訳(メタデータ) (2024-09-23T13:03:31Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object
Detection [0.7234862895932991]
近年の進歩は擬似LiDAR、すなわち合成高密度点雲を導入し、カメラなどの追加のモダリティを使って3Dオブジェクト検出を強化している。
我々は,LiDARセンサとシーンセマンティクスに頼って,密度の高い擬似点雲で生スキャンを増強する,新しいLiDAR専用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-16T09:18:47Z) - Point2Pix: Photo-Realistic Point Cloud Rendering via Neural Radiance
Fields [63.21420081888606]
最近の放射場と拡張法は、2次元入力から現実的な画像を合成するために提案されている。
我々は3次元スパース点雲と2次元高密度画像画素を結びつけるための新しい点としてPoint2Pixを提示する。
論文 参考訳(メタデータ) (2023-03-29T06:26:55Z) - ImLiDAR: Cross-Sensor Dynamic Message Propagation Network for 3D Object
Detection [20.44294678711783]
我々は,カメラ画像とLiDAR点雲のマルチスケール特徴を段階的に融合させることにより,センサ間差を狭める新しい3ODパラダイムであるImLiDARを提案する。
まず,マルチスケール画像とポイント特徴の最良の組み合わせを目的とした,クロスセンサ動的メッセージ伝搬モジュールを提案する。
第二に、効率的なセットベース検出器を設計できるような、直接セット予測問題を提起する。
論文 参考訳(メタデータ) (2022-11-17T13:31:23Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - 3D3L: Deep Learned 3D Keypoint Detection and Description for LiDARs [25.73598441491818]
本稿では3D3Lの基盤として最先端の2D特徴ネットワークを使用し,LiDAR領域の画像の強度と深さを両立させる。
以上の結果から,lidarスキャン画像から抽出されたキーポイントとディスクリプタは,各ベンチマーク指標において最先端を上回っていた。
論文 参考訳(メタデータ) (2021-03-25T13:08:07Z) - Learning to Drop Points for LiDAR Scan Synthesis [5.132259673802809]
3Dシーンのジェネラティブモデリングは、モバイルロボットが信頼できない観察を改善するための重要なトピックです。
点雲に関する既存の研究のほとんどは、小さく均一な密度のデータに焦点を当てている。
移動ロボットで広く使われている3次元LiDAR点雲は、多数の点と様々な密度のために扱いにくい。
本論文では,リアルなLiDARデータを改良した2次元表現として合成する,ジェネレーティブ・アドバーサリ・ネットワークに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T21:53:14Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。