論文の概要: Pixels-to-Graph: Real-time Integration of Building Information Models and Scene Graphs for Semantic-Geometric Human-Robot Understanding
- arxiv url: http://arxiv.org/abs/2506.22593v1
- Date: Fri, 27 Jun 2025 19:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.477505
- Title: Pixels-to-Graph: Real-time Integration of Building Information Models and Scene Graphs for Semantic-Geometric Human-Robot Understanding
- Title(参考訳): Pixels-to-Graph:意味幾何学的人間ロボット理解のための建築情報モデルとシーングラフのリアルタイム統合
- Authors: Antonello Longo, Chanyoung Chung, Matteo Palieri, Sung-Kyun Kim, Ali Agha, Cataldo Guaragnella, Shehryar Khattak,
- Abstract要約: 画像画素とLiDARマップから構造化されたシーングラフをリアルタイムに生成する,新しい軽量な手法である Pixels-to-Graph (Pix2G) を紹介する。
このフレームワークは、オンボードの計算制約を満たすためだけにCPU上のすべての操作を実行するように設計されている。
提案手法は,NASA JPL NeBula-Spot脚ロボットを用いた実世界の実験において,定量的に定性的に評価される。
- 参考スコア(独自算出の注目度): 6.924983239916623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous robots are increasingly playing key roles as support platforms for human operators in high-risk, dangerous applications. To accomplish challenging tasks, an efficient human-robot cooperation and understanding is required. While typically robotic planning leverages 3D geometric information, human operators are accustomed to a high-level compact representation of the environment, like top-down 2D maps representing the Building Information Model (BIM). 3D scene graphs have emerged as a powerful tool to bridge the gap between human readable 2D BIM and the robot 3D maps. In this work, we introduce Pixels-to-Graph (Pix2G), a novel lightweight method to generate structured scene graphs from image pixels and LiDAR maps in real-time for the autonomous exploration of unknown environments on resource-constrained robot platforms. To satisfy onboard compute constraints, the framework is designed to perform all operation on CPU only. The method output are a de-noised 2D top-down environment map and a structure-segmented 3D pointcloud which are seamlessly connected using a multi-layer graph abstracting information from object-level up to the building-level. The proposed method is quantitatively and qualitatively evaluated during real-world experiments performed using the NASA JPL NeBula-Spot legged robot to autonomously explore and map cluttered garage and urban office like environments in real-time.
- Abstract(参考訳): 自律ロボットは、リスクの高い危険なアプリケーションにおいて、人間のオペレーターのサポートプラットフォームとして、ますます重要な役割を担っている。
課題を達成するためには、効率的な人間とロボットの協調と理解が必要である。
通常、ロボット計画では3Dの幾何学的情報を利用するが、人間オペレーターはビルディング情報モデル(BIM)を表すトップダウン2Dマップのような、環境の高レベルなコンパクトな表現に慣れている。
3Dシーングラフは、人間の読みやすい2D BIMとロボットの3Dマップのギャップを埋める強力なツールとして登場した。
本研究では,資源制約のあるロボットプラットフォーム上で未知の環境を自律的に探索するために,画像画素とLiDARマップから構造化されたシーングラフをリアルタイムで生成する,新しい軽量な方法である Pixels-to-Graph (Pix2G) を紹介する。
計算上の制約を満たすため、このフレームワークはCPU上でのみ全ての操作を実行するように設計されている。
方法の出力は、オブジェクトレベルからビルレベルまで情報を抽象化する多層グラフを用いてシームレスに接続される2次元トップダウン環境マップと構造分離された3Dポイントクラウドである。
提案手法は,NASA JPL NeBula-Spot脚ロボットを用いた実世界の実験において,駐車場や都市部などの環境をリアルタイムで自律的に探索・地図化するために,定量的に定性的に評価されている。
関連論文リスト
- Language-Grounded Hierarchical Planning and Execution with Multi-Robot 3D Scene Graphs [44.52978937479273]
マッピング,ローカライゼーション,タスク・アンド・モーション・プランニング(TAMP)を統合したマルチロボットシステムを提案する。
本システムでは,マルチロボット3Dシーングラフの融合に利用されるオープンセットのオブジェクトベースマップを組み込んだ共有3Dシーングラフを構築している。
本研究では,大規模な屋外環境における実環境タスクにおけるシステム性能の実験的評価を行う。
論文 参考訳(メタデータ) (2025-06-09T06:02:34Z) - SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - S-Graphs+: Real-time Localization and Mapping leveraging Hierarchical
Representations [9.13466172688693]
S-Graphs+は,(1)ロボットのポーズを推定したポーズ層,(2)壁面を表す壁層,(3)壁面の集合を含む部屋層,(4)部屋を所定の階内に集める床層を含む,新しい4層係数グラフである。
上記のグラフは、ロボットのポーズとそのマップの堅牢で正確な推定値を得るために、リアルタイムで最適化され、同時に環境の高レベル情報を構築し、活用する。
論文 参考訳(メタデータ) (2022-12-22T15:06:21Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Situational Graphs for Robot Navigation in Structured Indoor
Environments [9.13466172688693]
環境を表す1つのグラフからなるリアルタイムオンライン構築状況グラフ(S-Graphs)を提示する。
本手法は3次元LiDARスキャンから抽出した計測値と平面面を用いて3層Sグラフをリアルタイムに構築・最適化する。
提案手法は,ロボットのポーズ推定の最先端結果を示すだけでなく,環境の計量意味・トポロジーモデルにも寄与する。
論文 参考訳(メタデータ) (2022-02-24T16:59:06Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。
本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。
本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文 参考訳(メタデータ) (2018-12-03T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。