論文の概要: Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search
- arxiv url: http://arxiv.org/abs/2012.04060v1
- Date: Mon, 7 Dec 2020 21:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 06:15:27.866933
- Title: Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search
- Title(参考訳): 階層的機械探索のための3次元シーングラフにおけるニューラルメッセージパッシングを用いた意味的・幾何学的モデリング
- Authors: Andrey Kurenkov, Roberto Mart\'in-Mart\'in, Jeff Ichnowski, Ken
Goldberg, Silvio Savarese
- Abstract要約: この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。
自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。
HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
- 参考スコア(独自算出の注目度): 48.655167907740136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Searching for objects in indoor organized environments such as homes or
offices is part of our everyday activities. When looking for a target object,
we jointly reason about the rooms and containers the object is likely to be in;
the same type of container will have a different probability of having the
target depending on the room it is in. We also combine geometric and semantic
information to infer what container is best to search, or what other objects
are best to move, if the target object is hidden from view. We propose to use a
3D scene graph representation to capture the hierarchical, semantic, and
geometric aspects of this problem. To exploit this representation in a search
process, we introduce Hierarchical Mechanical Search (HMS), a method that
guides an agent's actions towards finding a target object specified with a
natural language description. HMS is based on a novel neural network
architecture that uses neural message passing of vectors with visual,
geometric, and linguistic information to allow HMS to reason across layers of
the graph while combining semantic and geometric cues. HMS is evaluated on a
novel dataset of 500 3D scene graphs with dense placements of semantically
related objects in storage locations, and is shown to be significantly better
than several baselines at finding objects and close to the oracle policy in
terms of the median number of actions required. Additional qualitative results
can be found at https://ai.stanford.edu/mech-search/hms.
- Abstract(参考訳): 家庭やオフィスなどの屋内組織環境における物体の探索は日常的な活動の一環である。
対象物を探す場合、対象物が入っている可能性のある部屋や容器について、共同で推論します。同じタイプの容器は、対象物が入っている部屋によって異なる確率を持つでしょう。
また、幾何学的および意味的な情報を組み合わせることで、対象オブジェクトがビューから隠れている場合、どのコンテナが検索に最適なのか、他のオブジェクトが移動に最適なのかを推測します。
本稿では,この問題の階層的,意味的,幾何学的側面を捉えるために3次元シーングラフ表現を提案する。
この表現を探索プロセスで活用するために,自然言語記述で指定された対象物を見つけるためのエージェントの行動を導く手法である階層機械探索(HMS)を導入する。
HMSは、視覚的、幾何学的、言語的な情報を備えたベクトルのニューラルメッセージパッシングを使用して、意味論的および幾何学的手がかりを組み合わせながら、HMSがグラフの層をまたいで推論できるようにする、新しいニューラルネットワークアーキテクチャに基づいている。
記憶領域に意味的関連オブジェクトを密配置した500の3Dシーングラフからなる新しいデータセットで評価され、必要なアクションの中央値に関して、オブジェクトの発見とオラクルポリシーに近いいくつかのベースラインよりもはるかに優れていることが示されている。
さらに質的な結果がhttps://ai.stanford.edu/mech-search/hmsにある。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Task-Driven Graph Attention for Hierarchical Relational Object
Navigation [25.571175038938527]
大きなシーンにいる身体を持つAIエージェントは、オブジェクトを見つけるためにナビゲートする必要があることが多い。
対象ナビゲーションタスクHRON(hierarchical object navigation)の自然に現れる変種について検討する。
本稿では、シーングラフを入力の一部として使用し、グラフニューラルネットワークをバックボーンとして統合するソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-23T19:50:48Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - Extending Maps with Semantic and Contextual Object Information for Robot
Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。
オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T15:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。