論文の概要: Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency
- arxiv url: http://arxiv.org/abs/2405.12648v1
- Date: Tue, 21 May 2024 09:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:49:12.085513
- Title: Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency
- Title(参考訳): 共起知識と学習可能な項頻度を用いたシーングラフ生成戦略
- Authors: Hyeongjin Kim, Sangwon Kim, Dasom Ahn, Jong Taek Lee, Byoung Chul Ko,
- Abstract要約: シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。
これまでの研究は、SGG生成時の物体の共起を反映しなかった。
本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
- 参考スコア(独自算出の注目度): 3.351553095054309
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene graph generation (SGG) is an important task in image understanding because it represents the relationships between objects in an image as a graph structure, making it possible to understand the semantic relationships between objects intuitively. Previous SGG studies used a message-passing neural networks (MPNN) to update features, which can effectively reflect information about surrounding objects. However, these studies have failed to reflect the co-occurrence of objects during SGG generation. In addition, they only addressed the long-tail problem of the training dataset from the perspectives of sampling and learning methods. To address these two problems, we propose CooK, which reflects the Co-occurrence Knowledge between objects, and the learnable term frequency-inverse document frequency (TF-l-IDF) to solve the long-tail problem. We applied the proposed model to the SGG benchmark dataset, and the results showed a performance improvement of up to 3.8% compared with existing state-of-the-art models in SGGen subtask. The proposed method exhibits generalization ability from the results obtained, showing uniform performance improvement for all MPNN models.
- Abstract(参考訳): シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現し、オブジェクト間の意味的関係を直感的に理解できるようにするため、画像理解において重要なタスクである。
これまでのSGG研究では、メッセージパッシングニューラルネットワーク(MPNN)を使用して、周囲の物体に関する情報を効果的に反映できる機能を更新した。
しかし、これらの研究は、SGG生成中の物体の共起を反映していない。
さらに、サンプリングと学習の手法の観点から、トレーニングデータセットの長い尾の問題にのみ対処した。
これら2つの問題に対処するために,オブジェクト間の共起知識と学習可能な項周波数逆文書周波数(TF-l-IDF)を反映したCooKを提案する。
提案したモデルをSGGベンチマークデータセットに適用し,SGGenサブタスクの既存の最先端モデルと比較して最大3.8%の性能向上を示した。
提案手法は得られた結果から一般化能力を示し,MPNNモデル全体の均一な性能向上を示す。
関連論文リスト
- AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation [40.149652254414185]
本稿では,航空画像都市景観グラフ生成(AUG)データセットを構築し,公開する。
AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。
複雑な都市景観において局地的な状況が過大評価されるのを避けるため,本稿では,新たな局地性保存グラフ畳み込みネットワーク(LPG)を提案する。
論文 参考訳(メタデータ) (2024-04-11T14:29:30Z) - EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - HL-Net: Heterophily Learning Network for Scene Graph Generation [90.2766568914452]
本稿では,シーングラフにおけるオブジェクト/リレーショナル間のホモフィリとヘテロフィリを探索する,新しいヘテロフィリズ学習ネットワーク(HL-Net)を提案する。
HL-Netは、適応的な再重み付け変換モジュールで、異なる層からの情報を適応的に統合し、オブジェクトのヘテロフィリとホモフィリの両方を利用する。
我々は、ビジュアルゲノム(VG)とオープンイメージ(OI)の2つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-03T06:00:29Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Pairwise Relation Learning for Semi-supervised Gland Segmentation [90.45303394358493]
病理組織像における腺分節に対するPRS2モデルを提案する。
このモデルはセグメンテーションネットワーク(S-Net)とペア関係ネットワーク(PR-Net)から構成される。
我々は,GlaSデータセットの最近の5つの手法とCRAGデータセットの最近の3つの手法を比較した。
論文 参考訳(メタデータ) (2020-08-06T15:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。