論文の概要: MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools
- arxiv url: http://arxiv.org/abs/2502.10259v1
- Date: Fri, 14 Feb 2025 16:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:51.750580
- Title: MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools
- Title(参考訳): MITO:実世界のデータセットとシミュレーションツールによるミリ波を用いた非視線知覚の実現
- Authors: Laura Dodds, Tara Boroushaki, Fadel Adib,
- Abstract要約: 日常オブジェクトのマルチスペクトルミリ波(mmWave)画像の最初のデータセットであるMITOを提示する。
我々はRGB-D画像や地上の真理セグメンテーションマスクと同様に、視線および非視線における実世界のmmWave画像を提供する。
また,任意の3次元三角形メッシュに対して合成mmWave画像を生成するためのオープンソースのシミュレーションツールを開発した。
- 参考スコア(独自算出の注目度): 3.5352397180381194
- License:
- Abstract: We present MITO, the first dataset of multi-spectral millimeter-wave (mmWave) images of everyday objects. Unlike visible light, mmWave signals can image through everyday occlusions (e.g., cardboard boxes, fabric, plastic). However, due to the dearth of publicly-available mmWave images and the interdisciplinary challenges in collecting and processing mmWave signals, it remains difficult today for computer vision researchers to develop mmWave-based non-line-of-sight perception algorithms and models. To overcome these challenges, we introduce a real-world dataset and open-source simulation tool for mmWave imaging. The dataset is acquired using a UR5 robotic arm with two mmWave radars operating at different frequencies and an RGB-D camera. Through a signal processing pipeline, we capture and create over 580 real-world 3D mmWave images from over 76 different objects in the YCB dataset, a standard dataset for robotics manipulation. We provide real-world mmWave images in line-of-sight and non-line-of-sight, as well as RGB-D images and ground truth segmentation masks. We also develop an open-source simulation tool that can be used to generate synthetic mmWave images for any 3D triangle mesh, which achieves a median F-Score of 94% when compared to real-world mmWave images. We show the usefulness of this dataset and simulation tool in multiple CV tasks in non-line-of-sight. First, we perform object segmentation for mmWave images using the segment anything model (SAM), and achieve a median precision and recall of 92.6% and 64%. Second, we train a classifier that can recognize objects in non-line-of-sight. It is trained on synthetic images and can classify real-world images with 85% accuracy. We believe MITO will be a valuable resource for computer vision researchers in developing non-line-of-sight perception, similar to how early camera-based datasets shaped the field.
- Abstract(参考訳): 日常オブジェクトのマルチスペクトルミリ波(mmWave)画像の最初のデータセットであるMITOを提示する。
可視光とは異なり、mmWave信号は日常の閉塞(例えば、段ボール箱、布、プラスチック)を通して画像化することができる。
しかし、公開されているmmWave画像の劣化と、mmWave信号の収集・処理における学際的課題により、コンピュータビジョン研究者がmmWaveをベースとした非線形認識アルゴリズムやモデルを開発することは依然として困難である。
これらの課題を克服するために,ミリ波イメージングのための実世界のデータセットとオープンソースシミュレーションツールを導入する。
データセットはUR5ロボットアームと、異なる周波数で動作する2つのmmWaveレーダーとRGB-Dカメラを使って取得される。
信号処理パイプラインを通じて、ロボット操作の標準データセットであるYCBデータセットの76以上の異なるオブジェクトから、580以上の現実世界の3D mmWave画像をキャプチャし、作成します。
我々はRGB-D画像や地上の真理セグメンテーションマスクと同様に、視線および非視線における実世界のmmWave画像を提供する。
また,任意の3次元トライアングルメッシュに対して合成mmWave画像を生成するためのオープンソースのシミュレーションツールを開発し,実世界のmmWave画像と比較すると,中央値のFスコアが94%に達する。
非視線における複数のCVタスクにおけるこのデータセットとシミュレーションツールの有用性を示す。
まず,S segment Any Model (SAM) を用いてmmWave画像のオブジェクトセグメンテーションを行い,92.6%と64%の中央値の精度とリコールを実現する。
次に、非視線で物体を認識できる分類器を訓練する。
合成画像に基づいて訓練され、85%の精度で現実世界の画像を分類することができる。
MITOは、初期のカメラベースのデータセットがフィールドを形作るのと同じように、非視線知覚の開発において、コンピュータビジョン研究者にとって貴重なリソースになると考えています。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Differentiable Radio Frequency Ray Tracing for Millimeter-Wave Sensing [29.352303349003165]
我々はmmWaveベースの3D再構成のための微分可能なフレームワークDiffSBRを提案する。
DiffSBRは、仮想3Dモデルからレーダーポイント雲をシミュレートするために、微分可能なレイトレーシングエンジンを組み込んでいる。
各種レーダーハードウェアを用いた実験は、ディフSBRの微細な3D再構成能力を検証する。
論文 参考訳(メタデータ) (2023-11-22T06:13:39Z) - Multimodal Transformers for Wireless Communications: A Case Study in
Beam Prediction [7.727175654790777]
センシング支援ビーム予測のためのマルチモーダルトランスフォーマー深層学習フレームワークを提案する。
我々は畳み込みニューラルネットワークを用いて、時間とともにサンプリングされた画像、点雲、レーダー生データから特徴を抽出する。
実験結果から、画像とGPSデータに基づいてトレーニングしたソリューションは、予測されたビームの最高の距離ベース精度を78.44%に向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-21T06:29:38Z) - Diffusion Models for Interferometric Satellite Aperture Radar [73.01013149014865]
確率拡散モデル (Probabilistic Diffusion Models, PDMs) は、最近、非常に有望な生成モデルのクラスとして登場した。
ここでは、PDMを活用して、レーダーベースの衛星画像データセットを複数生成する。
PDMは複雑で現実的な構造を持つ画像を生成することに成功したが、サンプリング時間は依然として問題である。
論文 参考訳(メタデータ) (2023-08-31T16:26:17Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Point Cloud-based Proactive Link Quality Prediction for Millimeter-wave
Communications [2.559190942797394]
本研究は,mmWaveリンク品質予測のためのポイントクラウドベースの手法を提案する。
提案手法は,mmWave受信信号強度とスループットの将来の大減衰を予測できる。
論文 参考訳(メタデータ) (2023-01-02T16:51:40Z) - mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for
Millimeter Wave Radar [10.610455816814985]
ミリ波(mmWave)レーダーは、煙、雨、雪、照明の悪さといった悪環境でも使えるため、人気が高まっている。
以前の研究では、ノイズやスパースなmmWaveレーダ信号から3D骨格やメッシュを再構築する可能性を探っている。
このデータセットは、同期および校正されたmmWaveレーダーポイント雲と、異なるシーンにおけるRGB(D)イメージと、シーン内の人間のためのスケルトン/メシュアノテーションで構成されている。
論文 参考訳(メタデータ) (2022-09-12T08:00:31Z) - Learning 6D Pose Estimation from Synthetic RGBD Images for Robotic
Applications [0.6299766708197883]
提案したパイプラインは、興味のある対象のために大量の写真リアリスティックなRGBD画像を生成することができる。
オブジェクト検出器YOLO-V4-tinyと6次元ポーズ推定アルゴリズムPVN3Dを統合し,リアルタイム2次元ポーズ推定手法を開発した。
結果として得られたネットワークは、LineModデータセットで評価した場合の最先端手法と比較して、競合性能を示す。
論文 参考訳(メタデータ) (2022-08-30T14:17:15Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。