論文の概要: LiDAR-based Object Detection with Real-time Voice Specifications
- arxiv url: http://arxiv.org/abs/2504.02920v1
- Date: Thu, 03 Apr 2025 16:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:05.790835
- Title: LiDAR-based Object Detection with Real-time Voice Specifications
- Title(参考訳): リアルタイム音声仕様を用いたLiDARによる物体検出
- Authors: Anurag Kulkarni,
- Abstract要約: 本稿では,リアルタイム音声仕様を用いたLiDARオブジェクト検出システムを提案する。
3000サンプルのサブセットで87.0%の精度を達成し、200サンプルのベースラインである67.5%を超えている。
Tkinterのプロトタイプは、Edge TTS(en-IN-PrabhatNeural)と3Dビジュアライゼーションとリアルタイムフィードバックを使って、インドの男性による自然な音声出力を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a LiDAR-based object detection system with real-time voice specifications, integrating KITTI's 3D point clouds and RGB images through a multi-modal PointNet framework. It achieves 87.0% validation accuracy on a 3000-sample subset, surpassing a 200-sample baseline of 67.5% by combining spatial and visual data, addressing class imbalance with weighted loss, and refining training via adaptive techniques. A Tkinter prototype provides natural Indian male voice output using Edge TTS (en-IN-PrabhatNeural), alongside 3D visualizations and real-time feedback, enhancing accessibility and safety in autonomous navigation, assistive technology, and beyond. The study offers a detailed methodology, comprehensive experimental analysis, and a broad review of applications and challenges, establishing this work as a scalable advancement in human-computer interaction and environmental perception, aligned with current research trends.
- Abstract(参考訳): 本稿では,KITTIの3DポイントクラウドとRGBイメージをマルチモーダルなPointNetフレームワークを通じて統合した,リアルタイム音声仕様のLiDARオブジェクト検出システムを提案する。
3000サンプルのサブセット上で87.0%の検証精度を達成し、空間データと視覚データを組み合わせて200サンプルのベースラインを67.5%上回り、クラス不均衡と重み付き損失に対処し、適応技術によるトレーニングを洗練している。
Tkinterのプロトタイプは、Edge TTS(en-IN-PrabhatNeural)と3Dビジュアライゼーションとリアルタイムフィードバック、自律ナビゲーションにおけるアクセシビリティと安全性の向上、アシスト技術などを使用して、インドの男性による自然な音声出力を提供する。
この研究は、詳細な方法論、総合的な実験分析、応用と課題の広範なレビューを提供し、現在の研究動向に合わせて、人間とコンピュータの相互作用と環境認識のスケーラブルな進歩としてこの研究を確立している。
関連論文リスト
- INTACT: Inducing Noise Tolerance through Adversarial Curriculum Training for LiDAR-based Safety-Critical Perception and Autonomy [0.4124847249415279]
本稿では、雑音の多いLiDARデータに対するディープニューラルネットワーク(DNN)の堅牢性を高めるために設計された新しいフレームワークを提案する。
IntACTは、メタラーニングと、敵対的なカリキュラムトレーニング(ACT)を組み合わせることで、3Dポイントクラウドにおけるデータの破損とスパーシリティによる課題に対処する。
IntACTの有効性は、オブジェクトの検出、追跡、分類ベンチマークに関する包括的な評価を通じて実証される。
論文 参考訳(メタデータ) (2025-02-04T00:02:16Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - Pre-Training LiDAR-Based 3D Object Detectors Through Colorization [65.03659880456048]
我々は,データとラベルのギャップを埋めるために,革新的な事前学習手法であるグラウンドドポイントカラー化(GPC)を導入する。
GPCは、LiDAR点雲を色付けし、価値あるセマンティック・キューを装備するモデルを教えている。
KITTIとデータセットの実験結果は、GPCの顕著な効果を示している。
論文 参考訳(メタデータ) (2023-10-23T06:00:24Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - 3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object
Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。
提案手法はベンチマークモデルよりも性能が大幅に向上する。
私たちのコードはオープンソースで公開されています。
論文 参考訳(メタデータ) (2022-11-07T10:11:48Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - PALMAR: Towards Adaptive Multi-inhabitant Activity Recognition in
Point-Cloud Technology [0.0]
我々は,効率的な信号処理と新しい機械学習技術を用いて,多人数行動認識システムであるPALMARを開発した。
筆者らは, (i) 3台のデバイス(3D LiDAR, 79GHz mmWave)で収集したリアルタイムPCDと, (ii) 3D LiDAR 活動データ (28名) と (iii) 組込みハードウェアプロトタイプシステムを用いて, フレームワークとシステムを実験的に評価した。
論文 参考訳(メタデータ) (2021-06-22T16:17:50Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。