論文の概要: Leveraging commonsense for object localisation in partial scenes
- arxiv url: http://arxiv.org/abs/2211.00562v1
- Date: Tue, 1 Nov 2022 16:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:09:05.750081
- Title: Leveraging commonsense for object localisation in partial scenes
- Title(参考訳): 部分的シーンにおけるオブジェクトローカライズのためのcommonsenseの活用
- Authors: Francesco Giuliari, Geri Skenderi, Marco Cristani, Alessio Del Bue and
Yiming Wang
- Abstract要約: 空間コモンセンスグラフ(D-SCG)の幾何学的推論を容易にする新しいシーン表現を提案する。
新たな注目メッセージパッシング機構を実装したグラフニューラルネットワークを用いて,対象物体の未知の位置を推定する。
本研究では, 局所化精度を8倍に向上させるため, 部分ScanNetによる手法の評価を行い, 最先端技術の改善を5.9%向上させた。
- 参考スコア(独自算出の注目度): 36.47035776975184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an end-to-end solution to address the problem of object
localisation in partial scenes, where we aim to estimate the position of an
object in an unknown area given only a partial 3D scan of the scene. We propose
a novel scene representation to facilitate the geometric reasoning, Directed
Spatial Commonsense Graph (D-SCG), a spatial scene graph that is enriched with
additional concept nodes from a commonsense knowledge base. Specifically, the
nodes of D-SCG represent the scene objects and the edges are their relative
positions. Each object node is then connected via different commonsense
relationships to a set of concept nodes. With the proposed graph-based scene
representation, we estimate the unknown position of the target object using a
Graph Neural Network that implements a novel attentional message passing
mechanism. The network first predicts the relative positions between the target
object and each visible object by learning a rich representation of the objects
via aggregating both the object nodes and the concept nodes in D-SCG. These
relative positions then are merged to obtain the final position. We evaluate
our method using Partial ScanNet, improving the state-of-the-art by 5.9% in
terms of the localisation accuracy at a 8x faster training speed.
- Abstract(参考訳): 本研究では,シーンの部分的な3dスキャンだけで未知の領域における対象の位置を推定することを目的とした,部分シーンにおける対象の局所化問題に対処するエンドツーエンドソリューションを提案する。
本研究では,空間的シーングラフであるdirected spatial commonsense graph (d-scg) の幾何学的推論を容易にする新しいシーン表現を提案する。
具体的には、d-scgのノードはシーンオブジェクトを表し、エッジは相対的な位置である。
各オブジェクトノードは、概念ノードの集合と異なるコモンセンス関係を介して接続される。
提案するグラフベースシーン表現では,新たな注目メッセージパッシング機構を実装したグラフニューラルネットワークを用いて,対象物体の未知の位置を推定する。
ネットワークは、D-SCGにおいて、対象ノードと概念ノードの両方を集約することにより、対象オブジェクトと各可視オブジェクトの相対位置を予測する。
そして、それらの相対的な位置をマージして最終位置を得る。
本手法を部分走査網を用いて評価し,8倍の速さで局所化精度を5.9%向上させた。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - Inter-object Discriminative Graph Modeling for Indoor Scene Recognition [5.712940060321454]
本稿では,シーン特徴表現を強化するために,識別対象知識を活用することを提案する。
画素レベルのシーン特徴をノードとして定義する識別グラフネットワーク(DGN)を構築する。
提案した IODP と DGN を用いて, 広く使用されているシーンデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2023-11-10T08:07:16Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Learning Object Placement via Dual-path Graph Completion [28.346027247882354]
オブジェクト配置は、適切な位置とサイズで背景画像の上に前景オブジェクトを配置することを目的としている。
本研究では,オブジェクト配置をグラフ補完問題として扱い,新しいグラフ補完モジュール(GCM)を提案する。
前景オブジェクトは、このグラフの合理的な場所に挿入されるべき特別なノードとしてエンコードされる。
論文 参考訳(メタデータ) (2022-07-23T08:39:39Z) - Spatial Commonsense Graph for Object Localisation in Partial Scenes [36.47035776975184]
部分的なシーンにおける物体の局所化は,シーンの部分的な3次元スキャンによって物体の未知の位置を推定する新たな問題である。
提案手法は,新たなシーングラフモデルである空間コモンセンスグラフ(SCG)に基づいて,オブジェクトがノードであり,エッジが相互距離を定義する。
まず、ターゲットオブジェクトを表すノードと観測対象を表すノードの間の距離予測を行うグラフニューラルネットワークであるProximity Prediction NetworkにSCGを供給します。
論文 参考訳(メタデータ) (2022-03-10T14:13:35Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。