論文の概要: With Great Context Comes Great Prediction Power: Classifying Objects via Geo-Semantic Scene Graphs
- arxiv url: http://arxiv.org/abs/2512.23024v1
- Date: Sun, 28 Dec 2025 17:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.325653
- Title: With Great Context Comes Great Prediction Power: Classifying Objects via Geo-Semantic Scene Graphs
- Title(参考訳): ジオセマンティックなシーングラフによるオブジェクトの分類
- Authors: Ciprian Constantinescu, Marius Leordeanu,
- Abstract要約: 本稿では,文脈の重要な役割を論じ,文脈オブジェクト分類のための新しい枠組みを導入する。
まず1つの単眼画像からGSCG(Geo-Semantic Contextual Graph)を構築する。
この明示的なグラフ構造は、モデルの推論過程を本質的に解釈可能である。
- 参考スコア(独自算出の注目度): 5.492064811668243
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans effortlessly identify objects by leveraging a rich understanding of the surrounding scene, including spatial relationships, material properties, and the co-occurrence of other objects. In contrast, most computational object recognition systems operate on isolated image regions, devoid of meaning in isolation, thus ignoring this vital contextual information. This paper argues for the critical role of context and introduces a novel framework for contextual object classification. We first construct a Geo-Semantic Contextual Graph (GSCG) from a single monocular image. This rich, structured representation is built by integrating a metric depth estimator with a unified panoptic and material segmentation model. The GSCG encodes objects as nodes with detailed geometric, chromatic, and material attributes, and their spatial relationships as edges. This explicit graph structure makes the model's reasoning process inherently interpretable. We then propose a specialized graph-based classifier that aggregates features from a target object, its immediate neighbors, and the global scene context to predict its class. Through extensive ablation studies, we demonstrate that our context-aware model achieves a classification accuracy of 73.4%, dramatically outperforming context-agnostic versions (as low as 38.4%). Furthermore, our GSCG-based approach significantly surpasses strong baselines, including fine-tuned ResNet models (max 53.5%) and a state-of-the-art multimodal Large Language Model (LLM), Llama 4 Scout, which, even when given the full image alongside a detailed description of objects, maxes out at 42.3%. These results on COCO 2017 train/val splits highlight the superiority of explicitly structured and interpretable context for object recognition tasks.
- Abstract(参考訳): 人間は、空間的関係、物質的特性、および他の物体の共起を含む周囲のシーンの豊かな理解を活用することで、オブジェクトを熱心に識別する。
対照的に、ほとんどの計算対象認識システムは孤立した画像領域で動作しており、独立して意味を欠いているため、この重要な文脈情報を無視している。
本稿では,文脈の重要な役割を論じ,文脈オブジェクト分類のための新しい枠組みを導入する。
まず1つの単眼画像からGSCG(Geo-Semantic Contextual Graph)を構築する。
このリッチで構造化された表現は、メートル法深度推定器と統一された汎光学および物質セグメンテーションモデルを統合することによって構築される。
GSCGは、オブジェクトを詳細な幾何学的、色的、物質的特性を持つノードとしてエンコードし、それらの空間的関係をエッジとして扱う。
この明示的なグラフ構造は、モデルの推論過程を本質的に解釈可能である。
次に,対象対象物,そのすぐ隣人,及びクラスを予測するためのグローバルシーンコンテキストから特徴を集約するグラフベースの特殊分類器を提案する。
広範囲にわたるアブレーション研究を通じて、我々の文脈認識モデルは73.4%の分類精度を達成し、文脈に依存しないバージョン(38.4%以下)を劇的に上回っていることを実証した。
さらに、GSCGベースのアプローチは、細調整されたResNetモデル(最大53.5%)や最先端のマルチモーダル言語モデル(LLM)、Llama 4 Scoutなど、強力なベースラインをはるかに超えています。
COCO 2017のトレイン/バル分割の結果は、オブジェクト認識タスクにおいて明示的に構造化されたコンテキストと解釈可能なコンテキストの優位性を強調している。
関連論文リスト
- KeySG: Hierarchical Keyframe-Based 3D Scene Graphs [1.5134439544218246]
KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。
我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。
我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
論文 参考訳(メタデータ) (2025-10-01T15:53:27Z) - Synthetic Visual Genome [88.00433979509218]
本稿では,高品質な高次グラフを大規模に構築できる密接な注釈付き関係を持つ命令設計法であるROBINを紹介する。
我々のデータセットは合計146K画像と2.6Mオブジェクトの5.6M関係を含んでいる。
ROBIN-3Bモデルは300万件未満のインスタンスでトレーニングされているにもかかわらず、関係理解ベンチマークで3億件以上のインスタンスでトレーニングされた類似サイズのモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-09T11:09:10Z) - GraPLUS: Graph-based Placement Using Semantics for Image Composition [3.0450307343472405]
本稿では,画像中のプラプティブルなオブジェクト配置のための新しいフレームワークであるGraPLUS(Graph-based Placement Using Semantics)を提案する。
本手法は,文脈的に適切な対象位置を決定するために,グラフ構造化シーン表現と意味理解を一意に結合する。
GraPLUSの配置精度は92.1%、FIDスコアは28.83であり、競合する視覚的品質を維持しつつ、最先端の手法を8.1%上回っている。
論文 参考訳(メタデータ) (2025-03-20T00:43:29Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - On Support Relations Inference and Scene Hierarchy Graph Construction from Point Cloud in Clustered Environments [3.4535508414601344]
3Dシーンでは、リッチな空間幾何学的・トポロジ的情報はしばしばRGBベースのシーン理解アプローチによって無視される。
本研究では,物体間の関係を推定する場面理解のためのボトムアップ手法を開発した。
論文 参考訳(メタデータ) (2024-04-22T02:42:32Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。