Fugu-MT 論文翻訳(概要): Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge

論文の概要: Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge

arxiv url: http://arxiv.org/abs/2311.12889v1
Date: Tue, 21 Nov 2023 06:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 17:35:36.332635
Title: Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge
Title（参考訳）: 階層的関係と常識知識によるシーングラフ生成の強化
Authors: Bowen Jiang, Zhijun Zhuang, Camillo Jose Taylor
Abstract要約: 情報的階層構造を利用したベイズ分類ヘッドを提案する。これは2つのオブジェクト間のスーパーカテゴリまたはタイプの関係を、それぞれのスーパーカテゴリの詳細な関係とともに共同で予測する。シーングラフ予測システムから結果を評価するために,大規模言語モデルを用いたコモンセンス検証パイプラインを設計する。
参考スコア（独自算出の注目度）: 4.005483185111993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents an enhanced approach to generating scene graphs by incorporating a relationship hierarchy and commonsense knowledge. Specifically, we propose a Bayesian classification head that exploits an informative hierarchical structure. It jointly predicts the super-category or type of relationship between the two objects, along with the detailed relationship under each super-category. We design a commonsense validation pipeline that uses a large language model to critique the results from the scene graph prediction system and then use that feedback to enhance the model performance. The system requires no external large language model assistance at test time, making it more convenient for practical applications. Experiments on the Visual Genome and the OpenImage V6 datasets demonstrate that harnessing hierarchical relationships enhances the model performance by a large margin. The proposed Bayesian head can also be incorporated as a portable module in existing scene graph generation algorithms to improve their results. In addition, the commonsense validation enables the model to generate an extensive set of reasonable predictions beyond dataset annotations.
Abstract（参考訳）: 本研究では,関係階層とコモンセンス知識を取り入れたシーングラフ生成手法を提案する。具体的には,情報的階層構造を利用したベイズ分類ヘッドを提案する。 2つのオブジェクト間のスーパーカテゴリまたはタイプの関係を、それぞれのスーパーカテゴリの詳細な関係とともに共同で予測する。我々は,大規模言語モデルを用いてシーングラフ予測システムから結果を批判し,そのフィードバックを用いてモデル性能を向上させるコモンセンス検証パイプラインを設計する。このシステムは、テスト時に外部の大型言語モデル支援を必要としないため、実用上より便利である。 Visual GenomeとOpenImage V6データセットの実験では、階層的な関係を利用することで、モデルのパフォーマンスが大幅に向上することが示された。提案したベイズヘッドは、既存のシーングラフ生成アルゴリズムのポータブルモジュールとして組み込んで結果を改善することもできる。さらに、commonsense validationにより、モデルがデータセットのアノテーションを超えて、広範囲な合理的な予測を生成できる。

関連論文リスト

RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
Hierarchical Relationships: A New Perspective to Enhance Scene Graph Generation [8.28849026314542]
本稿では,ラベル間の階層構造を関係やオブジェクトに活用することにより,シーングラフ生成システムの性能を大幅に向上させることができることを示す。一対のオブジェクトインスタンス間の関係のスーパーカテゴリを共同で予測するために、ベイズ予測ヘッドを導入する。 Visual Genomeデータセットの実験は、特に述語分類とゼロショット設定において、その強力なパフォーマンスを示している。
論文参考訳（メタデータ） (2023-03-13T04:16:42Z)
High-order Multi-view Clustering for Generic Data [15.764819403555512]
グラフベースのマルチビュークラスタリングは、ほとんどの非グラフアプローチよりも優れたパフォーマンスを実現している。本稿では,高次マルチビュークラスタリング (HMvC) という手法を導入し,汎用データのトポロジ構造情報を探索する。
論文参考訳（メタデータ） (2022-09-22T07:49:38Z)
Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM 既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文参考訳（メタデータ） (2022-09-15T16:26:14Z)
Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文参考訳（メタデータ） (2022-07-27T10:37:29Z)
Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文参考訳（メタデータ） (2022-02-22T11:36:49Z)
One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文参考訳（メタデータ） (2022-02-22T11:32:59Z)
RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。 Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文参考訳（メタデータ） (2022-01-27T11:53:41Z)
A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。 AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文参考訳（メタデータ） (2021-05-22T07:05:48Z)
Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文参考訳（メタデータ） (2020-01-07T23:35:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。