論文の概要: Bridging Scene Understanding and Task Execution with Flexible Simulation
Environments
- arxiv url: http://arxiv.org/abs/2011.10452v1
- Date: Fri, 20 Nov 2020 15:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:30:15.686281
- Title: Bridging Scene Understanding and Task Execution with Flexible Simulation
Environments
- Title(参考訳): フレキシブルシミュレーション環境によるシーン理解とタスク実行の橋渡し
- Authors: Zachary Ravichandran, J. Daniel Griffith, Benjamin Smith, and Costas
Frost
- Abstract要約: 本稿では,シーン理解とタスク実行アルゴリズムを開発するためのオープンソースシミュレータであるTESSE(Task Execution with Semantic Environments)を紹介する。
TESSEは3次元動的シーングラフ生成とメトリクス・セマンティックマッピングのための最先端のソリューションの開発に利用されている。
- 参考スコア(独自算出の注目度): 0.9786690381850354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in scene understanding which seeks to
build 3D, metric and object-oriented representations of the world.
Concurrently, reinforcement learning has made impressive strides largely
enabled by advances in simulation. Comparatively, there has been less focus in
simulation for perception algorithms. Simulation is becoming increasingly vital
as sophisticated perception approaches such as metric-semantic mapping or 3D
dynamic scene graph generation require precise 3D, 2D, and inertial information
in an interactive environment. To that end, we present TESSE (Task Execution
with Semantic Segmentation Environments), an open source simulator for
developing scene understanding and task execution algorithms. TESSE has been
used to develop state-of-the-art solutions for metric-semantic mapping and 3D
dynamic scene graph generation. Additionally, TESSE served as the platform for
the GOSEEK Challenge at the International Conference of Robotics and Automation
(ICRA) 2020, an object search competition with an emphasis on reinforcement
learning. Code for TESSE is available at https://github.com/MIT-TESSE.
- Abstract(参考訳): 世界の3d、メートル法、オブジェクト指向の表現を構築しようとするシーン理解において、大きな進歩があった。
同時に、強化学習は、シミュレーションの進歩によって大きな進歩を遂げた。
相対的に、知覚アルゴリズムのシミュレーションにはあまり焦点が当てられていない。
メトリック・セマンティクスマッピングや3d動的シーングラフ生成のような高度な知覚アプローチでは、インタラクティブな環境で正確な3d、2d、慣性情報を必要とするため、シミュレーションはますます重要になっている。
そこで我々は,シーン理解とタスク実行アルゴリズムを開発するためのオープンソースシミュレータであるTESSE(Task Execution with Semantic Segmentation Environments)を紹介する。
tesseはメトリック・セマンティクスマッピングと3次元動的シーングラフ生成のための最先端ソリューションの開発に使われている。
さらにTESSEは、強化学習を重視したオブジェクト検索コンペであるInternational Conference of Robotics and Automation (ICRA) 2020において、GOSEEK Challengeのプラットフォームとして機能した。
TESSEのコードはhttps://github.com/MIT-TESSEで公開されている。
関連論文リスト
- Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。