論文の概要: Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2503.13947v1
- Date: Tue, 18 Mar 2025 06:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:04.107035
- Title: Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph Generation
- Title(参考訳): シーングラフ生成における不確実性定量化を支援するコンフォーマル予測とMLLM
- Authors: Sayak Nag, Udita Ghosh, Sarosij Bose, Calvin-Khang Ta, Jiachen Li, Amit K Roy Chowdhury,
- Abstract要約: SGG(Scene Graph Generation)は、オブジェクトとそのペア関係を識別することで、視覚的なシーンを表現することを目的としている。
予測の不確実性を定量化するために,既存のSGG法に適応した新しい Conformal Prediction (CP) ベースのフレームワークを提案する。
提案手法は,画像から多種多様なシーングラフを生成し,SGG手法の信頼性を評価し,全体的なSGG性能を向上させる。
- 参考スコア(独自算出の注目度): 24.006445329554452
- License:
- Abstract: Scene Graph Generation (SGG) aims to represent visual scenes by identifying objects and their pairwise relationships, providing a structured understanding of image content. However, inherent challenges like long-tailed class distributions and prediction variability necessitate uncertainty quantification in SGG for its practical viability. In this paper, we introduce a novel Conformal Prediction (CP) based framework, adaptive to any existing SGG method, for quantifying their predictive uncertainty by constructing well-calibrated prediction sets over their generated scene graphs. These scene graph prediction sets are designed to achieve statistically rigorous coverage guarantees. Additionally, to ensure these prediction sets contain the most practically interpretable scene graphs, we design an effective MLLM-based post-processing strategy for selecting the most visually and semantically plausible scene graphs within these prediction sets. We show that our proposed approach can produce diverse possible scene graphs from an image, assess the reliability of SGG methods, and improve overall SGG performance.
- Abstract(参考訳): SGG(Scene Graph Generation)は、オブジェクトとそのペア関係を識別し、画像の内容の構造化された理解を提供することによって、視覚的なシーンを表現することを目的としている。
しかし、長い尾のクラス分布や予測変数のような固有の課題は、その実用性のためにSGGの不確実性定量化を必要とする。
本稿では,既存のSGG法に適応した新しい Conformal Prediction (CP) ベースのフレームワークを提案する。
これらのシーングラフ予測セットは、統計的に厳密なカバレッジ保証を達成するように設計されている。
さらに,これらの予測セットが最も現実的に解釈可能なシーングラフを含むことを保証するため,これらの予測セット内で最も視覚的かつ意味論的に検証可能なシーングラフを選択するための効果的なMLLMベースの後処理戦略を設計する。
提案手法は,画像から多種多様なシーングラフを生成し,SGG手法の信頼性を評価し,全体的なSGG性能を向上させる。
関連論文リスト
- Graph Sparsification for Enhanced Conformal Prediction in Graph Neural Networks [5.896352342095999]
Conformal Predictionは、マシンラーニングタスク間の信頼性の高いカバレッジを保証する、堅牢なフレームワークである。
SparGCPはグラフスペーシフィケーションと共形予測固有の目的をGNNトレーニングに組み込んでいる。
実世界のグラフデータセットの実験では、SparGCPが既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-10-28T23:53:51Z) - Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction [12.319354506916547]
微粒なシーングラフ生成のためのサンプルレベルバイアス予測(SBP)手法を提案する。
まず、古典的なSGGモデルを訓練し、補正バイアスセットを構築する。
そこで我々は,BGAN(Bias-Oriented Generative Adversarial Network)を考案し,構築した補正バイアスを予測する。
論文 参考訳(メタデータ) (2024-07-27T13:49:06Z) - Improving the interpretability of GNN predictions through conformal-based graph sparsification [9.550589670316523]
グラフニューラルネットワーク(GNN)は、グラフ分類タスクの解決において最先端のパフォーマンスを達成した。
エッジやノードを除去することで,最も予測可能なサブグラフを見つけるGNNエンハンチング手法を提案する。
我々は、共形予測に基づく報奨関数で得られる二段階最適化を解決するために強化学習を頼りにしている。
論文 参考訳(メタデータ) (2024-04-18T17:34:47Z) - Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement [6.8754535229258975]
シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。
三重項のラベルの一部は、トレーニング中に珍しいか、あるいは目に見えず、不正確な予測をもたらす。
本稿では,事前学習した視覚言語モデルを統合し,表現性を高めることを提案する。
論文 参考訳(メタデータ) (2024-03-24T15:02:24Z) - Uncertainty Quantification over Graph with Conformalized Graph Neural
Networks [52.20904874696597]
グラフニューラルネットワーク(GNN)は、グラフ構造化データに基づく強力な機械学習予測モデルである。
GNNには厳密な不確実性見積が欠如しており、エラーのコストが重要な設定での信頼性の高いデプロイメントが制限されている。
本稿では,共形予測(CP)をグラフベースモデルに拡張した共形GNN(CF-GNN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T21:38:23Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。