論文の概要: Enhancing Scene Graph Generation with Hierarchical Relationships and
Commonsense Knowledge
- arxiv url: http://arxiv.org/abs/2311.12889v1
- Date: Tue, 21 Nov 2023 06:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:35:36.332635
- Title: Enhancing Scene Graph Generation with Hierarchical Relationships and
Commonsense Knowledge
- Title(参考訳): 階層的関係と常識知識によるシーングラフ生成の強化
- Authors: Bowen Jiang, Zhijun Zhuang, Camillo Jose Taylor
- Abstract要約: 情報的階層構造を利用したベイズ分類ヘッドを提案する。
これは2つのオブジェクト間のスーパーカテゴリまたはタイプの関係を、それぞれのスーパーカテゴリの詳細な関係とともに共同で予測する。
シーングラフ予測システムから結果を評価するために,大規模言語モデルを用いたコモンセンス検証パイプラインを設計する。
- 参考スコア(独自算出の注目度): 4.005483185111993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents an enhanced approach to generating scene graphs by
incorporating a relationship hierarchy and commonsense knowledge. Specifically,
we propose a Bayesian classification head that exploits an informative
hierarchical structure. It jointly predicts the super-category or type of
relationship between the two objects, along with the detailed relationship
under each super-category. We design a commonsense validation pipeline that
uses a large language model to critique the results from the scene graph
prediction system and then use that feedback to enhance the model performance.
The system requires no external large language model assistance at test time,
making it more convenient for practical applications. Experiments on the Visual
Genome and the OpenImage V6 datasets demonstrate that harnessing hierarchical
relationships enhances the model performance by a large margin. The proposed
Bayesian head can also be incorporated as a portable module in existing scene
graph generation algorithms to improve their results. In addition, the
commonsense validation enables the model to generate an extensive set of
reasonable predictions beyond dataset annotations.
- Abstract(参考訳): 本研究では,関係階層とコモンセンス知識を取り入れたシーングラフ生成手法を提案する。
具体的には,情報的階層構造を利用したベイズ分類ヘッドを提案する。
2つのオブジェクト間のスーパーカテゴリまたはタイプの関係を、それぞれのスーパーカテゴリの詳細な関係とともに共同で予測する。
我々は,大規模言語モデルを用いてシーングラフ予測システムから結果を批判し,そのフィードバックを用いてモデル性能を向上させるコモンセンス検証パイプラインを設計する。
このシステムは、テスト時に外部の大型言語モデル支援を必要としないため、実用上より便利である。
Visual GenomeとOpenImage V6データセットの実験では、階層的な関係を利用することで、モデルのパフォーマンスが大幅に向上することが示された。
提案したベイズヘッドは、既存のシーングラフ生成アルゴリズムのポータブルモジュールとして組み込んで結果を改善することもできる。
さらに、commonsense validationにより、モデルがデータセットのアノテーションを超えて、広範囲な合理的な予測を生成できる。
関連論文リスト
- Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Hierarchical Relationships: A New Perspective to Enhance Scene Graph
Generation [8.28849026314542]
本稿では,ラベル間の階層構造を関係やオブジェクトに活用することにより,シーングラフ生成システムの性能を大幅に向上させることができることを示す。
一対のオブジェクトインスタンス間の関係のスーパーカテゴリを共同で予測するために、ベイズ予測ヘッドを導入する。
Visual Genomeデータセットの実験は、特に述語分類とゼロショット設定において、その強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-13T04:16:42Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Ordinal Graph Gamma Belief Network for Social Recommender Systems [54.9487910312535]
我々は,階層型ベイズモデルであるオーディナルグラフファクター解析(OGFA)を開発し,ユーザ・イテムとユーザ・ユーザインタラクションを共同でモデル化する。
OGFAは、優れたレコメンデーションパフォーマンスを達成するだけでなく、代表ユーザの好みに応じた解釈可能な潜在因子も抽出する。
我々はOGFAを,マルチ確率層深層確率モデルであるオーディナルグラフガンマ信念ネットワークに拡張する。
論文 参考訳(メタデータ) (2022-09-12T09:19:22Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Neural Belief Propagation for Scene Graph Generation [31.9682610869767]
本稿では,結果のシーングラフを生成するための新しいニューラル信念伝搬法を提案する。
平均場近似よりも構造的Bethe近似を用いて、関連する限界を推定する。
様々な人気のあるシーングラフ生成ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-10T18:30:27Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven
Cloze Reward [42.925345819778656]
本稿では,グラフ拡張と意味駆動型RewarDによる抽象要約のための新しいフレームワークであるASGARDを紹介する。
本稿では,2つのエンコーダ(シーケンシャル文書エンコーダ)とグラフ構造化エンコーダ(グラフ構造化エンコーダ)の利用を提案する。
その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットからの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。
論文 参考訳(メタデータ) (2020-05-03T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。