論文の概要: Estimating Commonsense Scene Composition on Belief Scene Graphs
- arxiv url: http://arxiv.org/abs/2505.02405v1
- Date: Mon, 05 May 2025 06:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.579978
- Title: Estimating Commonsense Scene Composition on Belief Scene Graphs
- Title(参考訳): 信じられているシーングラフにおける常識的シーン構成の推定
- Authors: Mario A. V. Saucedo, Vignesh Kottayam Viswanathan, Christoforos Kanellakis, George Nikolakopoulos,
- Abstract要約: この研究は、Belief Scene Graphsの拡張に焦点を当てたコモンセンスシーンコンポジションの概念を確立している。
特に、コモンセンスシーン構成能力は、シーン内の関連オブジェクト間の空間的関係を理解することを指す。
このフレームワークは、シミュレーションデータによる複数の実行と、実際の屋内環境を通じて検証されている。
- 参考スコア(独自算出の注目度): 5.62479170374811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work establishes the concept of commonsense scene composition, with a focus on extending Belief Scene Graphs by estimating the spatial distribution of unseen objects. Specifically, the commonsense scene composition capability refers to the understanding of the spatial relationships among related objects in the scene, which in this article is modeled as a joint probability distribution for all possible locations of the semantic object class. The proposed framework includes two variants of a Correlation Information (CECI) model for learning probability distributions: (i) a baseline approach based on a Graph Convolutional Network, and (ii) a neuro-symbolic extension that integrates a spatial ontology based on Large Language Models (LLMs). Furthermore, this article provides a detailed description of the dataset generation process for such tasks. Finally, the framework has been validated through multiple runs on simulated data, as well as in a real-world indoor environment, demonstrating its ability to spatially interpret scenes across different room types.
- Abstract(参考訳): この研究は、見えない物体の空間分布を推定することによって、Belief Scene Graphsを拡張することに焦点を当てたコモンセンスシーン合成の概念を確立している。
具体的には、シーン構成能力は、シーン内の関連オブジェクト間の空間的関係を理解することを指し、この記事では、セマンティックオブジェクトクラスのすべての可能な位置について、共同確率分布としてモデル化する。
提案フレームワークは,確率分布を学習するための相関情報(CECI)モデルの2つの変種を含む。
(i)グラフ畳み込みネットワークに基づくベースラインアプローチ
(II)大言語モデル(LLM)に基づく空間オントロジーを統合するニューロシンボリック拡張。
さらに,本論文では,このようなタスクのデータセット生成プロセスについて詳述する。
最後に、このフレームワークは、シミュレーションデータによる複数の実行と、実空間の屋内環境を用いて検証され、異なるルームタイプでシーンを空間的に解釈する能力を示している。
関連論文リスト
- Exploiting Object-based and Segmentation-based Semantic Features for Deep Learning-based Indoor Scene Classification [0.5572976467442564]
本稿では,オブジェクト検出から得られたセマンティック情報とセマンティックセグメンテーション技術の両方を用いる。
セグメンテーションマスクを用いて,Hu-Moments Features (SHMFs)によって指定されたHu-Momentsベースのセグメンテーションカテゴリの形状特徴を提供する手法を提案する。
GOS$2$F$2$Appによって指定された3つのメインブランチネットワークも提案されている。
論文 参考訳(メタデータ) (2024-04-11T13:37:51Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。
グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。
提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文 参考訳(メタデータ) (2022-11-02T12:38:08Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Multi-Scale Representation Learning for Spatial Feature Distributions
using Grid Cells [11.071527762096053]
本研究では,位置の絶対位置と空間的関係を符号化するスペース2Vecという表現学習モデルを提案する。
その結果、Space2Vecはマルチスケール表現のため、確立されたMLアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-16T04:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。