論文の概要: Mono-hydra: Real-time 3D scene graph construction from monocular camera
input with IMU
- arxiv url: http://arxiv.org/abs/2308.05515v1
- Date: Thu, 10 Aug 2023 11:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:37:54.590524
- Title: Mono-hydra: Real-time 3D scene graph construction from monocular camera
input with IMU
- Title(参考訳): モノヒドラ:IMUを用いた単眼カメラによるリアルタイム3次元シーングラフ構築
- Authors: U.V.B.L. Udugama, G. Vosselman, F. Nex
- Abstract要約: ロボットが3D環境を自律的にナビゲートする能力は、空間概念の理解に依存する。
3Dシーングラフは、概念とその関連性の層グラフとして環境を表現するための堅牢なツールとして登場した。
本稿では,屋内シナリオに着目したモノクロカメラとIMUセンサーを組み合わせたリアルタイム空間認識システムMono-Hydraについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability of robots to autonomously navigate through 3D environments
depends on their comprehension of spatial concepts, ranging from low-level
geometry to high-level semantics, such as objects, places, and buildings. To
enable such comprehension, 3D scene graphs have emerged as a robust tool for
representing the environment as a layered graph of concepts and their
relationships. However, building these representations using monocular vision
systems in real-time remains a difficult task that has not been explored in
depth. This paper puts forth a real-time spatial perception system Mono-Hydra,
combining a monocular camera and an IMU sensor setup, focusing on indoor
scenarios. However, the proposed approach is adaptable to outdoor applications,
offering flexibility in its potential uses. The system employs a suite of deep
learning algorithms to derive depth and semantics. It uses a robocentric
visual-inertial odometry (VIO) algorithm based on square-root information,
thereby ensuring consistent visual odometry with an IMU and a monocular camera.
This system achieves sub-20 cm error in real-time processing at 15 fps,
enabling real-time 3D scene graph construction using a laptop GPU (NVIDIA
3080). This enhances decision-making efficiency and effectiveness in simple
camera setups, augmenting robotic system agility. We make Mono-Hydra publicly
available at: https://github.com/UAV-Centre-ITC/Mono_Hydra
- Abstract(参考訳): ロボットが3D環境を自律的にナビゲートする能力は、低レベルの幾何学からオブジェクト、場所、建物といった高レベルの意味論まで、空間概念の理解に依存する。
このような理解を可能にするため、3Dシーングラフは環境を概念とその関連性の層グラフとして表現するための堅牢なツールとして登場した。
しかし、モノキュラビジョンシステムを用いたこれらの表現をリアルタイムに構築することは、まだ深く研究されていない難しい課題である。
本稿では,屋内シナリオに着目したモノクロカメラとIMUセンサーを組み合わせたリアルタイム空間認識システムMono-Hydraを提案する。
しかし、提案手法は屋外アプリケーションに適用可能であり、その潜在的な用途に柔軟性を提供する。
このシステムは、深度と意味を導き出すために、一連のディープラーニングアルゴリズムを使用している。
正方形ルート情報に基づくロボット中心型視覚慣性計測(VIO)アルゴリズムを用いて、IMUと単眼カメラとの整合性を確保する。
このシステムは,リアルタイム処理における20cm以下の誤差を15fpsで達成し,ラップトップGPU(NVIDIA 3080)を用いたリアルタイム3Dシーングラフ構築を実現する。
これにより、シンプルなカメラセットアップにおける意思決定効率と効率が向上し、ロボットシステムのアジリティが向上する。
https://github.com/UAV-Centre-ITC/Mono_HydraでMono-Hydraを公開しています。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Learning Optical Flow, Depth, and Scene Flow without Real-World Labels [33.586124995327225]
自己教師付き単眼深度推定により、ロボットは生のビデオストリームから3D知覚を学習できる。
本稿では,深度,光学的流れ,シーンフローを共同学習できる新しい手法であるDRAFTを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:52:12Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。