論文の概要: From Pixels to Predicates Structuring urban perception with scene graphs
- arxiv url: http://arxiv.org/abs/2512.19221v1
- Date: Mon, 22 Dec 2025 10:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.703913
- Title: From Pixels to Predicates Structuring urban perception with scene graphs
- Title(参考訳): シーングラフによる都市認識の構造化
- Authors: Yunlong Liu, Shuyang Li, Pengyuan Liu, Yu Zhang, Rudi Stouffs,
- Abstract要約: 本研究では,ストリートビュー画像(SVI)を6つの知覚的指標を予測するための構造化表現に変換する3段階パイプラインを提案する。
第1段階では、各画像はオープンセットのPanoptic Scene Graph Model(OpenPSG)を使用して解析され、オブジェクト述語三重項オブジェクトを抽出する。
第2段階では、ヘテロジニアスグラフオートエンコーダ(GraphMAE)により、コンパクトなシーンレベルの埋め込みが学習される。
第3段階では、ニューラルネットワークがこれらの埋め込みから知覚のスコアを予測する。
- 参考スコア(独自算出の注目度): 4.7912190748710515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception research is increasingly modelled using streetscapes, yet many approaches still rely on pixel features or object co-occurrence statistics, overlooking the explicit relations that shape human perception. This study proposes a three stage pipeline that transforms street view imagery (SVI) into structured representations for predicting six perceptual indicators. In the first stage, each image is parsed using an open-set Panoptic Scene Graph model (OpenPSG) to extract object predicate object triplets. In the second stage, compact scene-level embeddings are learned through a heterogeneous graph autoencoder (GraphMAE). In the third stage, a neural network predicts perception scores from these embeddings. We evaluate the proposed approach against image-only baselines in terms of accuracy, precision, and cross-city generalization. Results indicate that (i) our approach improves perception prediction accuracy by an average of 26% over baseline models, and (ii) maintains strong generalization performance in cross-city prediction tasks. Additionally, the structured representation clarifies which relational patterns contribute to lower perception scores in urban scenes, such as graffiti on wall and car parked on sidewalk. Overall, this study demonstrates that graph-based structure provides expressive, generalizable, and interpretable signals for modelling urban perception, advancing human-centric and context-aware urban analytics.
- Abstract(参考訳): 知覚研究は、ストリートスケープを使ってますますモデル化されているが、多くのアプローチは、人間の知覚を形成する明示的な関係を見越して、ピクセルの特徴やオブジェクトの共起統計に依存している。
本研究では,ストリートビュー画像(SVI)を6つの知覚的指標を予測するための構造化表現に変換する3段階パイプラインを提案する。
第1段階では、各画像はオープンセットのPanoptic Scene Graph Model(OpenPSG)を使用して解析され、オブジェクトの述語三重項を抽出する。
第2段階では、コンパクトなシーンレベルの埋め込みは異種グラフオートエンコーダ(GraphMAE)によって学習される。
第3段階では、ニューラルネットワークがこれらの埋め込みから知覚のスコアを予測する。
画像のみのベースラインに対する提案手法を,精度,精度,都市間一般化の観点から評価した。
結果は
(i)本手法はベースラインモデルよりも平均26%の精度で知覚予測精度を向上させる。
(二)都市間予測タスクにおいて,強力な一般化性能を維持する。
さらに, 壁面の落書きや歩道に駐車した車など, 都市景観におけるリレーショナル・パターンが低知覚スコアにどのような影響を及ぼすかを明らかにする。
本研究は, 都市認識のモデル化, 人中心型, 文脈対応型都市分析における表現的, 一般化可能, 解釈可能な信号を提供することを示す。
関連論文リスト
- Statistical Confidence Rescoring for Robust 3D Scene Graph Generation from Multi-View Images [56.134885746889026]
セマンティックシーングラフ推定法は, 対象物, 述語, 関係性を正確に予測するために, 3Dアノテーションを利用する。
我々は、予測深度マップから、ノイズの多い擬似点ベース形状を克服し、マルチビュー画像の特徴に現れる背景雑音の量を削減した。
提案手法は,初期入力としてマルチビュー画像を純粋に用いた現在の手法より優れている。
論文 参考訳(メタデータ) (2025-08-05T21:25:50Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Graph-level Representation Learning with Joint-Embedding Predictive Architectures [43.89120279424267]
JEPA(Joint-Embedding Predictive Architectures)は、自己指導型表現学習の斬新で強力な技術である。
グラフ結合埋め込み予測アーキテクチャ(Graph-JEPA)を提案することにより、このパラダイムを用いてグラフレベルの表現を効果的にモデル化できることを示す。
特に、マスク付きモデリングを採用し、コンテキストサブグラフの潜時表現から始まるマスク付きサブグラフの潜時表現を予測することに焦点をあてる。
論文 参考訳(メタデータ) (2023-09-27T20:42:02Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Image Aesthetics Assessment Using Graph Attention Network [17.277954886018353]
画像美学評価のためのグラフニューラルネットワークに基づく2段階のフレームワークを提案する。
まず、入力画像がグラフとしてモデル化され、元のアスペクト比と解像度を維持する特徴グラフ表現を提案する。
次に,この特徴グラフを用いて,視覚的注意を用いて入力画像の異なる領域間の意味的関係をキャプチャするグラフニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-26T12:52:46Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph
Analysis [21.920148546359016]
認識と推論を橋渡しする3Dポイントベースのシーングラフ生成フレームワークを提案する。
推論段階では、EDGE指向のグラフ畳み込みネットワークが作成され、多次元エッジ機能を利用する。
実験結果は、シーングラフ生成研究に有望なエッジ指向推論効果を示す。
論文 参考訳(メタデータ) (2021-03-09T17:09:46Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。