論文の概要: Bridging Scene Understanding and Task Execution with Flexible Simulation
Environments
- arxiv url: http://arxiv.org/abs/2011.10452v1
- Date: Fri, 20 Nov 2020 15:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:30:15.686281
- Title: Bridging Scene Understanding and Task Execution with Flexible Simulation
Environments
- Title(参考訳): フレキシブルシミュレーション環境によるシーン理解とタスク実行の橋渡し
- Authors: Zachary Ravichandran, J. Daniel Griffith, Benjamin Smith, and Costas
Frost
- Abstract要約: 本稿では,シーン理解とタスク実行アルゴリズムを開発するためのオープンソースシミュレータであるTESSE(Task Execution with Semantic Environments)を紹介する。
TESSEは3次元動的シーングラフ生成とメトリクス・セマンティックマッピングのための最先端のソリューションの開発に利用されている。
- 参考スコア(独自算出の注目度): 0.9786690381850354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in scene understanding which seeks to
build 3D, metric and object-oriented representations of the world.
Concurrently, reinforcement learning has made impressive strides largely
enabled by advances in simulation. Comparatively, there has been less focus in
simulation for perception algorithms. Simulation is becoming increasingly vital
as sophisticated perception approaches such as metric-semantic mapping or 3D
dynamic scene graph generation require precise 3D, 2D, and inertial information
in an interactive environment. To that end, we present TESSE (Task Execution
with Semantic Segmentation Environments), an open source simulator for
developing scene understanding and task execution algorithms. TESSE has been
used to develop state-of-the-art solutions for metric-semantic mapping and 3D
dynamic scene graph generation. Additionally, TESSE served as the platform for
the GOSEEK Challenge at the International Conference of Robotics and Automation
(ICRA) 2020, an object search competition with an emphasis on reinforcement
learning. Code for TESSE is available at https://github.com/MIT-TESSE.
- Abstract(参考訳): 世界の3d、メートル法、オブジェクト指向の表現を構築しようとするシーン理解において、大きな進歩があった。
同時に、強化学習は、シミュレーションの進歩によって大きな進歩を遂げた。
相対的に、知覚アルゴリズムのシミュレーションにはあまり焦点が当てられていない。
メトリック・セマンティクスマッピングや3d動的シーングラフ生成のような高度な知覚アプローチでは、インタラクティブな環境で正確な3d、2d、慣性情報を必要とするため、シミュレーションはますます重要になっている。
そこで我々は,シーン理解とタスク実行アルゴリズムを開発するためのオープンソースシミュレータであるTESSE(Task Execution with Semantic Segmentation Environments)を紹介する。
tesseはメトリック・セマンティクスマッピングと3次元動的シーングラフ生成のための最先端ソリューションの開発に使われている。
さらにTESSEは、強化学習を重視したオブジェクト検索コンペであるInternational Conference of Robotics and Automation (ICRA) 2020において、GOSEEK Challengeのプラットフォームとして機能した。
TESSEのコードはhttps://github.com/MIT-TESSEで公開されている。
関連論文リスト
- ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [79.8456640972935]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
本稿では,3つのスタンドアロンモジュールを特徴とする高密度3次元グラウンドネットワークを提案する。
まず,文間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いて視点依存発話を解消する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Learning Optical Flow, Depth, and Scene Flow without Real-World Labels [33.586124995327225]
自己教師付き単眼深度推定により、ロボットは生のビデオストリームから3D知覚を学習できる。
本稿では,深度,光学的流れ,シーンフローを共同学習できる新しい手法であるDRAFTを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:52:12Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。