論文の概要: Kimera: from SLAM to Spatial Perception with 3D Dynamic Scene Graphs
- arxiv url: http://arxiv.org/abs/2101.06894v2
- Date: Sun, 24 Jan 2021 18:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 17:02:21.949378
- Title: Kimera: from SLAM to Spatial Perception with 3D Dynamic Scene Graphs
- Title(参考訳): Kimera:3DダイナミックシーングラフによるSLAMから空間知覚へ
- Authors: Antoni Rosinol, Andrew Violette, Marcus Abate, Nathan Hughes, Yun
Chang, Jingnan Shi, Arjun Gupta, Luca Carlone
- Abstract要約: 人間は、移動する環境の複雑な精神的モデルを形成することができます。
現在のロボットの内部表現は、環境の部分的かつ断片的な理解を提供する。
本稿では,新しい表現である3次元ダイナミックシーングラフを紹介する。
- 参考スコア(独自算出の注目度): 20.960087818959206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are able to form a complex mental model of the environment they move
in. This mental model captures geometric and semantic aspects of the scene,
describes the environment at multiple levels of abstractions (e.g., objects,
rooms, buildings), includes static and dynamic entities and their relations
(e.g., a person is in a room at a given time). In contrast, current robots'
internal representations still provide a partial and fragmented understanding
of the environment, either in the form of a sparse or dense set of geometric
primitives (e.g., points, lines, planes, voxels) or as a collection of objects.
This paper attempts to reduce the gap between robot and human perception by
introducing a novel representation, a 3D Dynamic Scene Graph(DSG), that
seamlessly captures metric and semantic aspects of a dynamic environment. A DSG
is a layered graph where nodes represent spatial concepts at different levels
of abstraction, and edges represent spatio-temporal relations among nodes. Our
second contribution is Kimera, the first fully automatic method to build a DSG
from visual-inertial data. Kimera includes state-of-the-art techniques for
visual-inertial SLAM, metric-semantic 3D reconstruction, object localization,
human pose and shape estimation, and scene parsing. Our third contribution is a
comprehensive evaluation of Kimera in real-life datasets and photo-realistic
simulations, including a newly released dataset, uHumans2, which simulates a
collection of crowded indoor and outdoor scenes. Our evaluation shows that
Kimera achieves state-of-the-art performance in visual-inertial SLAM, estimates
an accurate 3D metric-semantic mesh model in real-time, and builds a DSG of a
complex indoor environment with tens of objects and humans in minutes. Our
final contribution shows how to use a DSG for real-time hierarchical semantic
path-planning. The core modules in Kimera are open-source.
- Abstract(参考訳): 人間は、移動する環境の複雑なメンタルモデルを形成することができる。
このメンタルモデルは、シーンの幾何学的・意味的な側面を捉え、複数の抽象レベル(例えば、オブジェクト、部屋、建物)の環境を記述する。
対照的に、現在のロボットの内部表現は、スパースまたは密集した幾何学的原始体(例えば、点、線、平面、ボクセル)の形で、あるいはオブジェクトの集合として、環境を部分的に断片的に理解している。
本稿では,3次元ダイナミックシーングラフ(DSG)を導入することで,ロボットと人間の知覚のギャップを減らし,ダイナミック環境の計量的側面と意味的側面をシームレスにキャプチャする手法を提案する。
DSGは、ノードが異なる抽象レベルで空間概念を表現する階層グラフであり、エッジはノード間の時空間関係を表す。
第2の貢献はkimeraで、ビジュアル慣性データからdsgを構築する最初の完全自動メソッドです。
Kimeraには、ビジュアル・慣性SLAM、メトリック・セマンティック3D再構成、オブジェクトのローカライゼーション、人間のポーズと形状の推定、シーン解析のための最先端技術が含まれている。
第3のコントリビューションは、屋内と屋外の混み合ったシーンの集合をシミュレートする、新たにリリースされたデータセットuHumans2を含む、実際のデータセットと写真リアルなシミュレーションにおけるKimeraの包括的な評価である。
評価の結果,Kimera は視覚慣性SLAM の最先端性能を実現し,高精度な3次元メトリセマンティックメッシュモデルをリアルタイムで推定し,複雑な屋内環境のDSGを数個のオブジェクトと人間で数分で構築した。
最後のコントリビューションは、DSGをリアルタイムな階層的セマンティックパス計画に利用する方法を示している。
Kimeraのコアモジュールはオープンソースである。
関連論文リスト
- HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - MUG: Multi-human Graph Network for 3D Mesh Reconstruction from 2D Pose [20.099670445427964]
単一の単分子画像からマルチヒューマンボディメッシュを再構築することは重要な問題であるが、コンピュータビジョンの問題である。
本研究では,単一グラフニューラルネットワークを用いて,マルチヒューマン2次元ポーズのみを入力として,コヒーレントなマルチヒューマンメッシュを構築する。
論文 参考訳(メタデータ) (2022-05-25T08:54:52Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - Shallow2Deep: Indoor Scene Modeling by Single Image Understanding [42.87957414916607]
本稿では,ニューラルネットワークの深い特徴を用いた屋内シーンの自動モデリング手法を提案する。
一つのRGB画像が与えられた場合,本手法は同時に意味内容,3次元幾何学,オブジェクト関係を復元する。
論文 参考訳(メタデータ) (2020-02-22T23:27:22Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。