Fugu-MT 論文翻訳(概要): Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge

論文の概要: Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge

arxiv url: http://arxiv.org/abs/2311.12889v2
Date: Tue, 16 Jul 2024 04:39:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 23:08:39.027007
Title: Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge
Title（参考訳）: 階層的関係と常識知識によるシーングラフ生成の強化
Authors: Bowen Jiang, Zhijun Zhuang, Shreyas S. Shivakumar, Camillo J. Taylor,
Abstract要約: この研究は、関係階層とコモンセンス知識の両方によってシーングラフを生成するための拡張されたアプローチを導入する。我々は,シーングラフ予測システムから結果を批判するために基礎モデルを活用する,堅牢なコモンセンス検証パイプラインを実装した。 Visual GenomeとOpenImage V6データセットの実験では、既存のシーングラフ生成アルゴリズムのプラグインとプレイの拡張として、提案されたモジュールをシームレスに統合できることが示されている。
参考スコア（独自算出の注目度）: 7.28830964611216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work introduces an enhanced approach to generating scene graphs by incorporating both a relationship hierarchy and commonsense knowledge. Specifically, we begin by proposing a hierarchical relation head that exploits an informative hierarchical structure. It jointly predicts the relation super-category between object pairs in an image, along with detailed relations under each super-category. Following this, we implement a robust commonsense validation pipeline that harnesses foundation models to critique the results from the scene graph prediction system, removing nonsensical predicates even with a small language-only model. Extensive experiments on Visual Genome and OpenImage V6 datasets demonstrate that the proposed modules can be seamlessly integrated as plug-and-play enhancements to existing scene graph generation algorithms. The results show significant improvements with an extensive set of reasonable predictions beyond dataset annotations. Codes are available at https://github.com/bowen-upenn/scene_graph_commonsense.
Abstract（参考訳）: この研究は、関係階層とコモンセンス知識の両方を組み込むことにより、シーングラフを生成するための拡張されたアプローチを導入する。具体的には、情報的階層構造を利用する階層的関係ヘッドの提案から始める。画像内のオブジェクトペア間の関係のスーパーカテゴリと、各スーパーカテゴリの詳細な関係を共同で予測する。これに続いて、我々は、基礎モデルを利用してシーングラフ予測システムから結果を批判する堅牢なコモンセンス検証パイプラインを実装し、小さな言語のみのモデルであっても非意味な述語を除去する。 Visual GenomeとOpenImage V6データセットに関する大規模な実験は、既存のシーングラフ生成アルゴリズムのプラグイン・アンド・プレイ拡張として提案されたモジュールをシームレスに統合できることを実証している。結果は、データセットアノテーションを超えて、妥当な予測の広範なセットで大幅に改善されたことを示している。コードはhttps://github.com/bowen-upenn/scene_graph_commonsenseで公開されている。

関連論文リスト

RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
Hierarchical Relationships: A New Perspective to Enhance Scene Graph Generation [8.28849026314542]
本稿では,ラベル間の階層構造を関係やオブジェクトに活用することにより,シーングラフ生成システムの性能を大幅に向上させることができることを示す。一対のオブジェクトインスタンス間の関係のスーパーカテゴリを共同で予測するために、ベイズ予測ヘッドを導入する。 Visual Genomeデータセットの実験は、特に述語分類とゼロショット設定において、その強力なパフォーマンスを示している。
論文参考訳（メタデータ） (2023-03-13T04:16:42Z)
High-order Multi-view Clustering for Generic Data [15.764819403555512]
グラフベースのマルチビュークラスタリングは、ほとんどの非グラフアプローチよりも優れたパフォーマンスを実現している。本稿では,高次マルチビュークラスタリング (HMvC) という手法を導入し,汎用データのトポロジ構造情報を探索する。
論文参考訳（メタデータ） (2022-09-22T07:49:38Z)
Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM 既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文参考訳（メタデータ） (2022-09-15T16:26:14Z)
Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文参考訳（メタデータ） (2022-07-27T10:37:29Z)
Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文参考訳（メタデータ） (2022-02-22T11:36:49Z)
One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文参考訳（メタデータ） (2022-02-22T11:32:59Z)
RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。 Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文参考訳（メタデータ） (2022-01-27T11:53:41Z)
A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。 AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文参考訳（メタデータ） (2021-05-22T07:05:48Z)
Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文参考訳（メタデータ） (2020-01-07T23:35:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。