Fugu-MT 論文翻訳(概要): Bridging Scene Understanding and Task Execution with Flexible Simulation Environments

論文の概要: Bridging Scene Understanding and Task Execution with Flexible Simulation Environments

arxiv url: http://arxiv.org/abs/2011.10452v1
Date: Fri, 20 Nov 2020 15:29:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 05:30:15.686281
Title: Bridging Scene Understanding and Task Execution with Flexible Simulation Environments
Title（参考訳）: フレキシブルシミュレーション環境によるシーン理解とタスク実行の橋渡し
Authors: Zachary Ravichandran, J. Daniel Griffith, Benjamin Smith, and Costas Frost
Abstract要約: 本稿では,シーン理解とタスク実行アルゴリズムを開発するためのオープンソースシミュレータであるTESSE(Task Execution with Semantic Environments)を紹介する。 TESSEは3次元動的シーングラフ生成とメトリクス・セマンティックマッピングのための最先端のソリューションの開発に利用されている。
参考スコア（独自算出の注目度）: 0.9786690381850354
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Significant progress has been made in scene understanding which seeks to build 3D, metric and object-oriented representations of the world. Concurrently, reinforcement learning has made impressive strides largely enabled by advances in simulation. Comparatively, there has been less focus in simulation for perception algorithms. Simulation is becoming increasingly vital as sophisticated perception approaches such as metric-semantic mapping or 3D dynamic scene graph generation require precise 3D, 2D, and inertial information in an interactive environment. To that end, we present TESSE (Task Execution with Semantic Segmentation Environments), an open source simulator for developing scene understanding and task execution algorithms. TESSE has been used to develop state-of-the-art solutions for metric-semantic mapping and 3D dynamic scene graph generation. Additionally, TESSE served as the platform for the GOSEEK Challenge at the International Conference of Robotics and Automation (ICRA) 2020, an object search competition with an emphasis on reinforcement learning. Code for TESSE is available at https://github.com/MIT-TESSE.
Abstract（参考訳）: 世界の3d、メートル法、オブジェクト指向の表現を構築しようとするシーン理解において、大きな進歩があった。同時に、強化学習は、シミュレーションの進歩によって大きな進歩を遂げた。相対的に、知覚アルゴリズムのシミュレーションにはあまり焦点が当てられていない。メトリック・セマンティクスマッピングや3d動的シーングラフ生成のような高度な知覚アプローチでは、インタラクティブな環境で正確な3d、2d、慣性情報を必要とするため、シミュレーションはますます重要になっている。そこで我々は,シーン理解とタスク実行アルゴリズムを開発するためのオープンソースシミュレータであるTESSE(Task Execution with Semantic Segmentation Environments)を紹介する。 tesseはメトリック・セマンティクスマッピングと3次元動的シーングラフ生成のための最先端ソリューションの開発に使われている。さらにTESSEは、強化学習を重視したオブジェクト検索コンペであるInternational Conference of Robotics and Automation (ICRA) 2020において、GOSEEK Challengeのプラットフォームとして機能した。 TESSEのコードはhttps://github.com/MIT-TESSEで公開されている。

関連論文リスト

Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments [41.80879866951797]
Hi-Dyna Graphは階層的な動的シーングラフアーキテクチャで、永続的なグローバルレイアウトと局所的な動的セマンティクスを統合し、ロボットの自律性を具現化する。大型言語モデル(LLM)を利用したエージェントを用いて、統一されたグラフを解釈し、遅延タスクトリガーを推論し、ロボットの余裕に基づいて実行可能な命令を生成する。
論文参考訳（メタデータ） (2025-05-30T03:35:29Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding [44.81427860963744]
この分野での基本課題はエゴ中心の3次元視覚グラウンド(英語版)であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。視覚的意味論とテキスト的意味論を両立させる新しいアプローチであるDenseGroundingを提案する。視覚的特徴として,細粒度のグローバルなシーンの特徴を捉えることで,密接なセマンティックなセマンティックなセマンティック・エンハンサーを導入する。テキスト記述のための言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:49:06Z)
DSM: Building A Diverse Semantic Map for 3D Visual Grounding [4.89669292144966]
本研究では,3次元視覚接地作業を行うロボットエージェントを対象とした多種多様な意味マップ構築手法を提案する。本手法は多モード大言語モデル(VLM)を利用してシーン内のオブジェクトの潜在意味的属性と関係を捕捉し,幾何学的スライディングウインドウマップ構築戦略により,DSM(Diverse Semantic Map)を作成する。実験結果から,本手法はセマンティックセグメンテーションや3次元視覚グラウンディングといったタスクにおける現在の手法よりも優れており,特に,最先端の手法と比較して総合的に優れていることがわかった。
論文参考訳（メタデータ） (2025-04-11T07:18:42Z)
Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文参考訳（メタデータ） (2024-10-06T23:25:21Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文参考訳（メタデータ） (2024-03-13T17:50:32Z)
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。 2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文参考訳（メタデータ） (2023-09-28T17:53:38Z)
CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文参考訳（メタデータ） (2023-03-22T09:32:45Z)
Evaluating Continual Learning Algorithms by Generating 3D Virtual Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文参考訳（メタデータ） (2021-09-16T10:37:21Z)
Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文参考訳（メタデータ） (2021-08-17T13:30:02Z)
3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。 3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文参考訳（メタデータ） (2020-02-15T00:46:32Z)
CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文参考訳（メタデータ） (2018-12-03T13:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。