論文の概要: Neuro-Symbolic Spatial Reasoning in Segmentation
- arxiv url: http://arxiv.org/abs/2510.15841v1
- Date: Fri, 17 Oct 2025 17:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.728554
- Title: Neuro-Symbolic Spatial Reasoning in Segmentation
- Title(参考訳): セグメンテーションにおけるニューロシンボリック空間推論
- Authors: Jiayi Lin, Jiabo Huang, Shaogang Gong,
- Abstract要約: Open-Vocabulary Semantic (OVSS)は、オープンなカテゴリの集合からピクセルレベルのラベルを割り当てる。
我々はOVSSにニューロシンボリック(NeSy)空間推論を導入する。
これは、OVSSでNeSy空間推論を探索する最初の試みである。
- 参考スコア(独自算出の注目度): 27.7231614319754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Semantic Segmentation (OVSS) assigns pixel-level labels from an open set of categories, requiring generalization to unseen and unlabelled objects. Using vision-language models (VLMs) to correlate local image patches with potential unseen object categories suffers from a lack of understanding of spatial relations of objects in a scene. To solve this problem, we introduce neuro-symbolic (NeSy) spatial reasoning in OVSS. In contrast to contemporary VLM correlation-based approaches, we propose Relational Segmentor (RelateSeg) to impose explicit spatial relational constraints by first order logic (FOL) formulated in a neural network architecture. This is the first attempt to explore NeSy spatial reasoning in OVSS. Specifically, RelateSeg automatically extracts spatial relations, e.g., <cat, to-right-of, person>, and encodes them as first-order logic formulas using our proposed pseudo categories. Each pixel learns to predict both a semantic category (e.g., "cat") and a spatial pseudo category (e.g., "right of person") simultaneously, enforcing relational constraints (e.g., a "cat" pixel must lie to the right of a "person"). Finally, these logic constraints are formulated in a deep network architecture by fuzzy logic relaxation, enabling end-to-end learning of spatial-relationally consistent segmentation. RelateSeg achieves state-of-the-art performance in terms of average mIoU across four benchmark datasets and particularly shows clear advantages on images containing multiple categories, with the cost of only introducing a single auxiliary loss function and no additional parameters, validating the effectiveness of NeSy spatial reasoning in OVSS.
- Abstract(参考訳): Open-Vocabulary Semantic Segmentation (OVSS)は、オープンなカテゴリからピクセルレベルのラベルを割り当てる。
視覚言語モデル(VLM)を用いて局所的なイメージパッチと潜在的に見えないオブジェクトカテゴリを関連付けることは、シーン内のオブジェクトの空間的関係の理解の欠如に悩まされる。
この問題を解決するために,OVSSにおけるニューロシンボリック(NeSy)空間推論を導入する。
現代のVLM相関に基づくアプローチとは対照的に、ニューラルネットワークアーキテクチャで定式化された一階述語論理(FOL)により明示的な空間的関係制約を課すリレーショナルセグメンタ(Relational Segmentor, RelateSeg)を提案する。
これは、OVSSでNeSy空間推論を探索する最初の試みである。
具体的には,RelateSegは空間関係,例えば<cat,to-right-of, person>を自動的に抽出し,提案した擬似カテゴリを用いて一階述語論理式として符号化する。
各ピクセルは、意味圏(e g , "cat")と空間的擬似圏(e g , "right of person")の両方を同時に予測し、関係制約(e g , "cat" ピクセルは「人」の右側に置かれなければならない)を強制する。
最後に、これらの論理制約はファジィ論理緩和によってディープネットワークアーキテクチャで定式化され、空間的に一貫したセグメンテーションのエンドツーエンド学習を可能にする。
RelateSegは4つのベンチマークデータセットの平均mIoUで最先端のパフォーマンスを実現し、特に複数のカテゴリを含む画像に対して明確な優位性を示している。
関連論文リスト
- LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - SimNP: Learning Self-Similarity Priors Between Neural Points [52.4201466988562]
SimNPはカテゴリーレベルの自己相似性を学ぶ方法である。
我々は、SimNPが対称な見えない対象領域の再構成において、従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-07T16:02:40Z) - Spatial Correspondence between Graph Neural Network-Segmented Images [1.807691213023136]
医用画像分割のためのグラフニューラルネットワーク(GNN)が提案されている。
本研究は,空間対応を確立するための共通トポロジを用いて,これらのGNNのポテンシャルについて検討する。
CT画像における局所椎体サブリージョンの登録例を例に,GNNをベースとしたセグメンテーションが正確かつ信頼性の高いローカライゼーションを実現することを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-03-12T03:25:01Z) - Automated Feature-Topic Pairing: Aligning Semantic and Embedding Spaces
in Spatial Representation Learning [28.211312371895]
本稿では,特徴トピックペアリング(Feature-topic pairing)という新たな問題を定式化し,PSO(Particle Swarm Optimization)に基づくディープラーニングフレームワークを提案する。
具体的には,1)潜在的埋め込み特徴空間と2)意味的話題空間との間の自動アライメントタスクに問題を定式化する。
PSOに基づく解法を設計し、最適なトピックセットを同時に選択し、選択したトピックに基づいて対応する特徴を学習する。
論文 参考訳(メタデータ) (2021-09-22T21:55:36Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Optimized Feature Space Learning for Generating Efficient Binary Codes
for Image Retrieval [9.470008343329892]
本稿では,最小クラス内分散と最大クラス間分散を用いた低次元最適化特徴空間の学習手法を提案する。
生成した特徴ベクトルを、人気の反復量子化(ITQ)アプローチでバイナライズし、画像検索のために所望のビット長のバイナリコードを生成するアンサンブルネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-30T15:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。