論文の概要: Estimating Commonsense Scene Composition on Belief Scene Graphs
- arxiv url: http://arxiv.org/abs/2505.02405v1
- Date: Mon, 05 May 2025 06:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.579978
- Title: Estimating Commonsense Scene Composition on Belief Scene Graphs
- Title(参考訳): 信じられているシーングラフにおける常識的シーン構成の推定
- Authors: Mario A. V. Saucedo, Vignesh Kottayam Viswanathan, Christoforos Kanellakis, George Nikolakopoulos,
- Abstract要約: この研究は、Belief Scene Graphsの拡張に焦点を当てたコモンセンスシーンコンポジションの概念を確立している。
特に、コモンセンスシーン構成能力は、シーン内の関連オブジェクト間の空間的関係を理解することを指す。
このフレームワークは、シミュレーションデータによる複数の実行と、実際の屋内環境を通じて検証されている。
- 参考スコア(独自算出の注目度): 5.62479170374811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work establishes the concept of commonsense scene composition, with a focus on extending Belief Scene Graphs by estimating the spatial distribution of unseen objects. Specifically, the commonsense scene composition capability refers to the understanding of the spatial relationships among related objects in the scene, which in this article is modeled as a joint probability distribution for all possible locations of the semantic object class. The proposed framework includes two variants of a Correlation Information (CECI) model for learning probability distributions: (i) a baseline approach based on a Graph Convolutional Network, and (ii) a neuro-symbolic extension that integrates a spatial ontology based on Large Language Models (LLMs). Furthermore, this article provides a detailed description of the dataset generation process for such tasks. Finally, the framework has been validated through multiple runs on simulated data, as well as in a real-world indoor environment, demonstrating its ability to spatially interpret scenes across different room types.
- Abstract(参考訳): この研究は、見えない物体の空間分布を推定することによって、Belief Scene Graphsを拡張することに焦点を当てたコモンセンスシーン合成の概念を確立している。
具体的には、シーン構成能力は、シーン内の関連オブジェクト間の空間的関係を理解することを指し、この記事では、セマンティックオブジェクトクラスのすべての可能な位置について、共同確率分布としてモデル化する。
提案フレームワークは,確率分布を学習するための相関情報(CECI)モデルの2つの変種を含む。
(i)グラフ畳み込みネットワークに基づくベースラインアプローチ
(II)大言語モデル(LLM)に基づく空間オントロジーを統合するニューロシンボリック拡張。
さらに,本論文では,このようなタスクのデータセット生成プロセスについて詳述する。
最後に、このフレームワークは、シミュレーションデータによる複数の実行と、実空間の屋内環境を用いて検証され、異なるルームタイプでシーンを空間的に解釈する能力を示している。
関連論文リスト
- CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。
グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。
提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文 参考訳(メタデータ) (2022-11-02T12:38:08Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Multi-Scale Representation Learning for Spatial Feature Distributions
using Grid Cells [11.071527762096053]
本研究では,位置の絶対位置と空間的関係を符号化するスペース2Vecという表現学習モデルを提案する。
その結果、Space2Vecはマルチスケール表現のため、確立されたMLアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-16T04:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。