論文の概要: CAGE-SGG: Counterfactual Active Graph Evidence for Open-Vocabulary Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2604.22274v1
- Date: Fri, 24 Apr 2026 06:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.368445
- Title: CAGE-SGG: Counterfactual Active Graph Evidence for Open-Vocabulary Scene Graph Generation
- Title(参考訳): CAGE-SGG:Open-Vocabulary Scene Graph生成のための非現実的アクティブグラフ証拠
- Authors: Suiyang Guang, Chenyu Liu, Ruohan Zhang, Siyuan Chen,
- Abstract要約: Open-vocabulary scene graph generation (SGG) は、フレキシブルできめ細かな関係句で視覚的なシーンを記述することを目的としている。
本稿では,反実的関係検証に基づくエビデンスを包含したオープン語彙SGGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.971992237358638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary scene graph generation (SGG) aims to describe visual scenes with flexible and fine-grained relation phrases beyond a fixed predicate vocabulary. While recent vision-language models greatly expand the semantic coverage of SGG, they also introduce a critical reliability issue: predicted relations may be driven by language priors or object co-occurrence rather than grounded visual evidence. In this paper, we propose an evidence-rounded open-vocabulary SGG framework based on counterfactual relation verification. Instead of directly accepting plausible relation proposals, our method verifies whether each candidate relation is supported by relation-pecific visual, geometric, and contextual evidence. Specifically, we first generate open-vocabulary relation candidates with a vision-language proposer, then decompose predicate phrases into soft evidence bases such as support, contact, containment, depth, motion, and state. A relation-conditioned evidence encoder extracts predicate-relevant cues, while a counterfactual verifier tests whether the relation score decreases when necessary vidence is removed and remains stable under irrelevant perturbations. We further introduce contradiction-aware predicate learning and graph-level preference optimization to improve fine-grained discrimination and global graph consistency. Experiments on conventional, open-vocabulary, and panoptic SGG benchmarks show that our method consistently improves standard recall-based metrics, unseen predicate generalization, and counterfactual grounding quality. These results demonstrate that moving from relation generation to relation verification leads to more reliable, interpretable, and evidence-grounded scene graphs.
- Abstract(参考訳): Open-vocabulary scene graph generation (SGG) は、特定の述語語彙を超えた、フレキシブルできめ細かい関係のフレーズで視覚的なシーンを記述することを目的としている。
最近の視覚言語モデルは、SGGのセマンティックカバレッジを大幅に拡大する一方で、それらは重大な信頼性の問題も導入している。
本稿では,反実的関係検証に基づくエビデンスを包含したオープン語彙SGGフレームワークを提案する。
提案手法は, 妥当な関係提案を直接受け入れる代わりに, 関連性のある視覚的, 幾何学的, 文脈的エビデンスによって, それぞれの関係が支持されているかどうかを検証する。
具体的には,まずオープン語彙関係候補を視覚言語プロジェクタで生成し,述語句をサポート,接触,封じ込め,深度,動き,状態などのソフトエビデンスベースに分解する。
関係条件付エビデンスエンコーダは述語関連キューを抽出し、反ファクト検証器は、関係スコアが必要ビデンスを除去し、無関係な摂動下で安定であるかどうかを検証する。
さらに,矛盾認識型述語学習とグラフレベルの選好最適化を導入し,微粒化とグローバルグラフの整合性を改善する。
従来のオープンボキャブラリ,パノプティックSGGベンチマークによる実験により,提案手法は標準リコールベースの指標,予測の一般化の見当たらない一般化,および対実的グラウンドニング品質を一貫して改善することが示された。
これらの結果は、関係生成から関係検証への移行により、より信頼性が高く、解釈可能で、エビデンスに基づくシーングラフが得られることを示している。
関連論文リスト
- ReLIC-SGG: Relation Lattice Completion for Open-Vocabulary Scene Graph Generation [5.184088650563149]
オープン語彙シーングラフ生成のための関係不完全性認識フレームワークである textbfRelic-SGG を提案する。
Relic-SGGは、開語彙述語間の類似性、包含、矛盾をモデル化するための意味的関係格子を構築する。
実験により、Relic-SGGは稀で目に見えない述語認識を改善し、行方不明な関係を回復することが示された。
論文 参考訳(メタデータ) (2026-04-24T13:36:41Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights [10.188075925271471]
ソーシャルメディアの会話における虐待的言語は、先行するコメントの内容とトポロジによって特徴づけられる会話の文脈に依存する。
従来の乱用言語検出モデルは、しばしばこのコンテキストを見落とし、信頼性の低いパフォーマンス指標につながる可能性がある。
会話コンテキストを統合する最近の自然言語処理(NLP)手法は、しばしば限定的かつ単純化された表現に依存し、一貫性のない結果を報告する。
本稿では,グラフニューラルネットワーク(GNN)を用いてソーシャルメディアの会話をグラフとしてモデル化し,ノードがコメントを表現し,エッジが応答構造をキャプチャする手法を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:03:37Z) - PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文 参考訳(メタデータ) (2023-11-18T06:49:17Z) - FactGraph: Evaluating Factuality in Summarization with Semantic Graph
Representations [114.94628499698096]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。
MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。
事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文 参考訳(メタデータ) (2022-04-13T16:45:33Z) - Graph-based Retrieval for Claim Verification over Cross-Document
Evidence [0.6853165736531939]
グラフに基づくアプローチは、断片化された証拠を特定するのに役立つと推測する。
我々はこの仮説を、コーパス全体にわたって、上述したエンティティによってテキスト部分を相互接続する大きなグラフを構築して検証した。
実験により,グラフ構造を活用することは,クレームに関連する通路のごく一部を特定する上で有益であることが確認された。
論文 参考訳(メタデータ) (2021-09-13T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。