論文の概要: SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding
- arxiv url: http://arxiv.org/abs/2512.00936v1
- Date: Sun, 30 Nov 2025 15:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.506726
- Title: SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding
- Title(参考訳): SceneProp:Scene-Graph Groundingのためのニューラルネットワークとマルコフランダムフィールドの組み合わせ
- Authors: Keita Otani, Tatsuya Harada,
- Abstract要約: 複数のオブジェクトと関係を持つ複雑なビジュアルクエリをグラウンディングすることは、視覚言語モデルにおける根本的な課題である。
単一のオブジェクトのローカライズには優れるが、複雑なリレーショナル記述を解析するための構造的帰納バイアスが欠如している。
マルコフランダム場(MRF)におけるMAP推論問題として,シーングラフの接地を最大化することで,この問題を解決する新しい手法であるScenePropを紹介する。
- 参考スコア(独自算出の注目度): 44.72928381789337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding complex, compositional visual queries with multiple objects and relationships is a fundamental challenge for vision-language models. While standard phrase grounding methods excel at localizing single objects, they lack the structural inductive bias to parse intricate relational descriptions, often failing as queries become more descriptive. To address this structural deficit, we focus on scene-graph grounding, a powerful but less-explored formulation where the query is an explicit graph of objects and their relationships. However, existing methods for this task also struggle, paradoxically showing decreased performance as the query graph grows -- failing to leverage the very information that should make grounding easier. We introduce SceneProp, a novel method that resolves this issue by reformulating scene-graph grounding as a Maximum a Posteriori (MAP) inference problem in a Markov Random Field (MRF). By performing global inference over the entire query graph, SceneProp finds the optimal assignment of image regions to nodes that jointly satisfies all constraints. This is achieved within an end-to-end framework via a differentiable implementation of the Belief Propagation algorithm. Experiments on four benchmarks show that our dedicated focus on the scene-graph grounding formulation allows SceneProp to significantly outperform prior work. Critically, its accuracy consistently improves with the size and complexity of the query graph, demonstrating for the first time that more relational context can, and should, lead to better grounding. Codes are available at https://github.com/keitaotani/SceneProp.
- Abstract(参考訳): 複数のオブジェクトと関係を持つ複雑な合成ビジュアルクエリをグラウンディングすることは、視覚言語モデルにおける根本的な課題である。
単一のオブジェクトのローカライズに優れる標準的なフレーズ接頭辞法は、複雑なリレーショナル記述を解析する構造的帰納バイアスを欠いているが、クエリがより記述的になるにつれて、しばしば失敗する。
このような構造的欠陥に対処するために,我々は,クエリがオブジェクトとその関係の明示的なグラフであるような,強力だが探索の少ない定式化であるシーングラフの接地に注目した。
しかし、このタスクの既存のメソッドもまた苦労しており、クエリグラフが大きくなるにつれて、パラドックス的にパフォーマンスが低下している。
本稿では,マルコフランダムフィールド(MRF)におけるMAP推論問題として,シーングラフのグラウンド化を改良し,この問題を解決する新しい手法であるScenePropを紹介する。
クエリグラフ全体にわたってグローバルな推論を実行することで、ScenePropは、すべての制約を満足するノードに対するイメージ領域の最適な割り当てを見つける。
これは、Belief Propagationアルゴリズムの微分可能な実装を通じて、エンドツーエンドのフレームワーク内で実現される。
4つのベンチマークの実験では、シーングラフのグラウンドディングの定式化に重点を置いているため、ScenePropは以前の作業を大幅に上回っていることが示されています。
重要な点として、クエリグラフのサイズと複雑さによって、その正確さは一貫して改善され、より関係性のあるコンテキストがより深くなり、より良い基盤化につながることを初めて示します。
コードはhttps://github.com/keitaotani/SceneProp.comで入手できる。
関連論文リスト
- GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing [17.63475613154152]
本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
論文 参考訳(メタデータ) (2022-11-03T16:46:46Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Dual ResGCN for Balanced Scene GraphGeneration [106.7828712878278]
本稿では,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルであるtextitdual ResGCNを提案する。
2つのネットワークは相互に補完的であり、前者はオブジェクトレベルのコンテキスト情報、すなわちオブジェクト間の接続をキャプチャする。
後者は、関係レベルのコンテキスト情報、すなわち関係間の関係を明示的にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2020-11-09T07:44:17Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。