Fugu-MT 論文翻訳(概要): Kimera: from SLAM to Spatial Perception with 3D Dynamic Scene Graphs

論文の概要: Kimera: from SLAM to Spatial Perception with 3D Dynamic Scene Graphs

arxiv url: http://arxiv.org/abs/2101.06894v2
Date: Sun, 24 Jan 2021 18:00:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-27 17:02:21.949378
Title: Kimera: from SLAM to Spatial Perception with 3D Dynamic Scene Graphs
Title（参考訳）: Kimera:3DダイナミックシーングラフによるSLAMから空間知覚へ
Authors: Antoni Rosinol, Andrew Violette, Marcus Abate, Nathan Hughes, Yun Chang, Jingnan Shi, Arjun Gupta, Luca Carlone
Abstract要約: 人間は、移動する環境の複雑な精神的モデルを形成することができます。現在のロボットの内部表現は、環境の部分的かつ断片的な理解を提供する。本稿では,新しい表現である3次元ダイナミックシーングラフを紹介する。
参考スコア（独自算出の注目度）: 20.960087818959206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans are able to form a complex mental model of the environment they move in. This mental model captures geometric and semantic aspects of the scene, describes the environment at multiple levels of abstractions (e.g., objects, rooms, buildings), includes static and dynamic entities and their relations (e.g., a person is in a room at a given time). In contrast, current robots' internal representations still provide a partial and fragmented understanding of the environment, either in the form of a sparse or dense set of geometric primitives (e.g., points, lines, planes, voxels) or as a collection of objects. This paper attempts to reduce the gap between robot and human perception by introducing a novel representation, a 3D Dynamic Scene Graph(DSG), that seamlessly captures metric and semantic aspects of a dynamic environment. A DSG is a layered graph where nodes represent spatial concepts at different levels of abstraction, and edges represent spatio-temporal relations among nodes. Our second contribution is Kimera, the first fully automatic method to build a DSG from visual-inertial data. Kimera includes state-of-the-art techniques for visual-inertial SLAM, metric-semantic 3D reconstruction, object localization, human pose and shape estimation, and scene parsing. Our third contribution is a comprehensive evaluation of Kimera in real-life datasets and photo-realistic simulations, including a newly released dataset, uHumans2, which simulates a collection of crowded indoor and outdoor scenes. Our evaluation shows that Kimera achieves state-of-the-art performance in visual-inertial SLAM, estimates an accurate 3D metric-semantic mesh model in real-time, and builds a DSG of a complex indoor environment with tens of objects and humans in minutes. Our final contribution shows how to use a DSG for real-time hierarchical semantic path-planning. The core modules in Kimera are open-source.
Abstract（参考訳）: 人間は、移動する環境の複雑なメンタルモデルを形成することができる。このメンタルモデルは、シーンの幾何学的・意味的な側面を捉え、複数の抽象レベル(例えば、オブジェクト、部屋、建物)の環境を記述する。対照的に、現在のロボットの内部表現は、スパースまたは密集した幾何学的原始体(例えば、点、線、平面、ボクセル)の形で、あるいはオブジェクトの集合として、環境を部分的に断片的に理解している。本稿では,3次元ダイナミックシーングラフ(DSG)を導入することで,ロボットと人間の知覚のギャップを減らし,ダイナミック環境の計量的側面と意味的側面をシームレスにキャプチャする手法を提案する。 DSGは、ノードが異なる抽象レベルで空間概念を表現する階層グラフであり、エッジはノード間の時空間関係を表す。第2の貢献はkimeraで、ビジュアル慣性データからdsgを構築する最初の完全自動メソッドです。 Kimeraには、ビジュアル・慣性SLAM、メトリック・セマンティック3D再構成、オブジェクトのローカライゼーション、人間のポーズと形状の推定、シーン解析のための最先端技術が含まれている。第3のコントリビューションは、屋内と屋外の混み合ったシーンの集合をシミュレートする、新たにリリースされたデータセットuHumans2を含む、実際のデータセットと写真リアルなシミュレーションにおけるKimeraの包括的な評価である。評価の結果,Kimera は視覚慣性SLAM の最先端性能を実現し,高精度な3次元メトリセマンティックメッシュモデルをリアルタイムで推定し,複雑な屋内環境のDSGを数個のオブジェクトと人間で数分で構築した。最後のコントリビューションは、DSGをリアルタイムな階層的セマンティックパス計画に利用する方法を示している。 Kimeraのコアモジュールはオープンソースである。

関連論文リスト

SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments [41.80879866951797]
Hi-Dyna Graphは階層的な動的シーングラフアーキテクチャで、永続的なグローバルレイアウトと局所的な動的セマンティクスを統合し、ロボットの自律性を具現化する。大型言語モデル(LLM)を利用したエージェントを用いて、統一されたグラフを解釈し、遅延タスクトリガーを推論し、ロボットの余裕に基づいて実行可能な命令を生成する。
論文参考訳（メタデータ） (2025-05-30T03:35:29Z)
PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文参考訳（メタデータ） (2024-12-31T08:58:10Z)
PG-SLAM: Photo-realistic and Geometry-aware RGB-D SLAM in Dynamic Environments [49.38692556283867]
ガウススプラッティングを拡張した写真リアリスティックかつ幾何学的RGB-D SLAM法を提案する。本手法は,1)非剛体人や剛体物を含む動的前景のマッピング,2)静的背景の再構築,3)カメラのローカライズを行うための3つの主要モジュールから構成される。実世界の様々なデータセットに対する実験により、カメラのローカライゼーションとシーン表現の観点から、我々の手法が最先端のアプローチより優れていることが示された。
論文参考訳（メタデータ） (2024-11-24T12:00:55Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。 2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文参考訳（メタデータ） (2023-09-28T17:53:38Z)
MUG: Multi-human Graph Network for 3D Mesh Reconstruction from 2D Pose [20.099670445427964]
単一の単分子画像からマルチヒューマンボディメッシュを再構築することは重要な問題であるが、コンピュータビジョンの問題である。本研究では,単一グラフニューラルネットワークを用いて,マルチヒューマン2次元ポーズのみを入力として,コヒーレントなマルチヒューマンメッシュを構築する。
論文参考訳（メタデータ） (2022-05-25T08:54:52Z)
Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文参考訳（メタデータ） (2022-03-07T18:59:02Z)
HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文参考訳（メタデータ） (2021-12-23T22:27:55Z)
Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文参考訳（メタデータ） (2020-04-08T12:25:25Z)
Shallow2Deep: Indoor Scene Modeling by Single Image Understanding [42.87957414916607]
本稿では,ニューラルネットワークの深い特徴を用いた屋内シーンの自動モデリング手法を提案する。一つのRGB画像が与えられた場合,本手法は同時に意味内容,3次元幾何学,オブジェクト関係を復元する。
論文参考訳（メタデータ） (2020-02-22T23:27:22Z)
3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。 3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文参考訳（メタデータ） (2020-02-15T00:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。