論文の概要: USA-Net: Unified Semantic and Affordance Representations for Robot
Memory
- arxiv url: http://arxiv.org/abs/2304.12164v1
- Date: Mon, 24 Apr 2023 15:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:35:22.598640
- Title: USA-Net: Unified Semantic and Affordance Representations for Robot
Memory
- Title(参考訳): usa-net: ロボットメモリのための統一意味表現とアフォーアンス表現
- Authors: Benjamin Bolte, Austin Wang, Jimmy Yang, Mustafa Mukadam, Mrinal
Kalakrishnan, Chris Paxton
- Abstract要約: 方法」とは,シーンの意味と空間的余裕の両方を識別可能な地図にエンコードする世界表現を構築するための簡易な方法である。
これにより、オープンエンドの語彙を使って指定されたシーンの場所をナビゲートできる勾配ベースのプランナーを構築することができる。
- 参考スコア(独自算出の注目度): 16.2648050791869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for robots to follow open-ended instructions like "go open the brown
cabinet over the sink", they require an understanding of both the scene
geometry and the semantics of their environment. Robotic systems often handle
these through separate pipelines, sometimes using very different representation
spaces, which can be suboptimal when the two objectives conflict. In this work,
we present "method", a simple method for constructing a world representation
that encodes both the semantics and spatial affordances of a scene in a
differentiable map. This allows us to build a gradient-based planner which can
navigate to locations in the scene specified using open-ended vocabulary. We
use this planner to consistently generate trajectories which are both shorter
5-10% shorter and 10-30% closer to our goal query in CLIP embedding space than
paths from comparable grid-based planners which don't leverage gradient
information. To our knowledge, this is the first end-to-end differentiable
planner optimizes for both semantics and affordance in a single implicit map.
Code and visuals are available at our website: https://usa.bolte.cc/
- Abstract(参考訳): ロボットが「シンクの上に茶色のキャビネットを開く」といったオープンエンドの指示に従うためには、シーンの幾何学と環境の意味の両方を理解する必要がある。
ロボットシステムは、しばしばこれらを別々のパイプラインを通して処理し、しばしば非常に異なる表現空間を使用する。
本稿では,シーンの意味と空間的余裕の両方を微分可能なマップにエンコードする,世界表現を構築するためのシンプルな手法である"method"を提案する。
これにより、オープンエンド語彙を用いて指定されたシーンの場所をナビゲートできる勾配ベースのプランナーを構築することができる。
私たちは、このプランナーを使って、勾配情報を利用していないグリッドベースのプランナーのパスよりも、CLIP埋め込みスペースのゴールクエリよりも10-30%短い5-10%短いトラジェクトリを生成します。
私たちの知る限り、これは1つの暗黙のマップで意味論と余裕の両方を最適化する最初のエンドツーエンドの微分可能なプランナーです。
コードとビジュアルは、私たちのウェブサイトで利用可能です。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Fully Geometric Panoramic Localization [16.200889977514862]
本稿では,2次元3次元線の形状のみを利用する軽量かつ高精度な位置決め手法を提案する。
プレキャプチャされた3Dマップからパノラマ画像のローカライズを行う。
我々の完全に幾何学的なアプローチは、広範囲なパラメータチューニングやニューラルネットワークのトレーニングを伴わないため、現実の世界に容易に展開できる実用的なアルゴリズムです。
論文 参考訳(メタデータ) (2024-03-29T01:07:20Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Constructing Metric-Semantic Maps using Floor Plan Priors for Long-Term
Indoor Localization [29.404446814219202]
本稿では,長期オブジェクトベースローカライゼーションを目的としたメートル法セマンティックマップ構築の課題に対処する。
モノラルなRGBフレームからの3次元物体検出,オブジェクトベースのマップ構築,および構築されたマップのグローバルなローカライズに活用する。
オフィスビルにおける地図構築を評価し,同じ環境下で9ヶ月にわたって記録された課題列に対する長期的局所化アプローチを検証した。
論文 参考訳(メタデータ) (2023-03-20T09:33:05Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Hierarchical Path-planning from Speech Instructions with Spatial Concept-based Topometric Semantic Mapping [7.332652485849632]
本研究の目的は,位相的意味マップと経路計画を用いた階層的空間表現の実現である。
本研究では,SIGVerseシミュレータ上でのToyota Human Support Robotを用いた家庭環境実験と,実ロボットAlbertを用いた実験室環境実験を行った。
経路距離を用いた音声指示を用いたナビゲーション実験は,経路コストを基準とした階層的経路計画法よりもSpCoTMHPの性能向上を実証した。
論文 参考訳(メタデータ) (2022-03-21T09:15:25Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。