論文の概要: R2G: Reasoning to Ground in 3D Scenes
- arxiv url: http://arxiv.org/abs/2408.13499v1
- Date: Sat, 24 Aug 2024 06:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:19:21.612780
- Title: R2G: Reasoning to Ground in 3D Scenes
- Title(参考訳): R2Gは3Dシーンで地平線に反応する
- Authors: Yixuan Li, Zan Wang, Wei Liang,
- Abstract要約: R2G(Reasoning to Ground)は、3Dシーン内の対象物を推論的にグラウンド化するニューラルネットワークのシンボルモデルである。
R2Gは、セマンティックな概念に基づくシーングラフで3Dシーンを明示的にモデル化し、オブジェクトエンティティ間での注意伝達を反復的にシミュレートする。
Sr3D/Nr3Dベンチマークの実験により、R2Gは解釈可能性の向上を維持しつつ、以前の研究と同等の結果を得ることが示された。
- 参考スコア(独自算出の注目度): 22.917172452931844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Reasoning to Ground (R2G), a neural symbolic model that grounds the target objects within 3D scenes in a reasoning manner. In contrast to prior works, R2G explicitly models the 3D scene with a semantic concept-based scene graph; recurrently simulates the attention transferring across object entities; thus makes the process of grounding the target objects with the highest probability interpretable. Specifically, we respectively embed multiple object properties within the graph nodes and spatial relations among entities within the edges, utilizing a predefined semantic vocabulary. To guide attention transferring, we employ learning or prompting-based methods to analyze the referential utterance and convert it into reasoning instructions within the same semantic space. In each reasoning round, R2G either (1) merges current attention distribution with the similarity between the instruction and embedded entity properties or (2) shifts the attention across the scene graph based on the similarity between the instruction and embedded spatial relations. The experiments on Sr3D/Nr3D benchmarks show that R2G achieves a comparable result with the prior works while maintaining improved interpretability, breaking a new path for 3D language grounding.
- Abstract(参考訳): 本稿では,3次元シーン内の対象物体を理論的にグラウンド化するニューラルネットワークモデルであるReasoning to Ground (R2G)を提案する。
従来の作業とは対照的に、R2Gは意味論的概念に基づくシーングラフで3Dシーンを明示的にモデル化し、オブジェクトエンティティ間での注意伝達を反復的にシミュレートすることで、ターゲットオブジェクトを最も高い確率でグラウンド化するプロセスを実現する。
具体的には、事前に定義された意味語彙を用いて、グラフノード内に複数のオブジェクト特性を埋め込み、エッジ内にエンティティ間の空間的関係を埋め込む。
注意伝達を導くために、私たちは、参照発話を分析して、同じ意味空間内の推論命令に変換する学習やプロンプトベースの手法を採用している。
各推論ラウンドにおいて、R2Gは(1)命令と埋め込みエンティティプロパティの類似性と現在の注意分布をマージするか、(2)命令と埋め込み空間関係の類似性に基づいてシーングラフに注目を移す。
Sr3D/Nr3Dベンチマークの実験により、R2Gは3D言語接地のための新しいパスを破り、解釈可能性の改善を維持しながら、以前の作業と同等の結果を得ることが示された。
関連論文リスト
- SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。