論文の概要: Leveraging Predicate and Triplet Learning for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2406.02038v1
- Date: Tue, 4 Jun 2024 07:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:30:56.916235
- Title: Leveraging Predicate and Triplet Learning for Scene Graph Generation
- Title(参考訳): シーングラフ生成のための述語とトリプレット学習の活用
- Authors: Jiankai Li, Yunhong Wang, Xiefan Guo, Ruijie Yang, Weixin Li,
- Abstract要約: SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。
本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。
提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
- 参考スコア(独自算出の注目度): 31.09787444957997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) aims to identify entities and predict the relationship triplets \textit{\textless subject, predicate, object\textgreater } in visual scenes. Given the prevalence of large visual variations of subject-object pairs even in the same predicate, it can be quite challenging to model and refine predicate representations directly across such pairs, which is however a common strategy adopted by most existing SGG methods. We observe that visual variations within the identical triplet are relatively small and certain relation cues are shared in the same type of triplet, which can potentially facilitate the relation learning in SGG. Moreover, for the long-tail problem widely studied in SGG task, it is also crucial to deal with the limited types and quantity of triplets in tail predicates. Accordingly, in this paper, we propose a Dual-granularity Relation Modeling (DRM) network to leverage fine-grained triplet cues besides the coarse-grained predicate ones. DRM utilizes contexts and semantics of predicate and triplet with Dual-granularity Constraints, generating compact and balanced representations from two perspectives to facilitate relation recognition. Furthermore, a Dual-granularity Knowledge Transfer (DKT) strategy is introduced to transfer variation from head predicates/triplets to tail ones, aiming to enrich the pattern diversity of tail classes to alleviate the long-tail problem. Extensive experiments demonstrate the effectiveness of our method, which establishes new state-of-the-art performance on Visual Genome, Open Image, and GQA datasets. Our code is available at \url{https://github.com/jkli1998/DRM}
- Abstract(参考訳): SGG(Scene Graph Generation)は、視覚的なシーンにおいて、エンティティを識別し、関係トリプレット \textit{\textless subject, predicate, object\textgreater } を予測することを目的としている。
同じ述語でも対象と対象のペアの大きな視覚的変動の頻度を考えると、そのようなペア間で直接述語表現をモデル化・洗練することは極めて困難であり、しかしながら、既存のSGG法で採用されている一般的な戦略である。
同一の3重項内の視覚的変化は比較的小さく、同一の3重項で特定の関係キューが共有されていることが観察され、SGGにおける関係学習が促進される可能性が示唆された。
さらに,SGGタスクで広く研究されている長尾問題に対しては,尾部述語における三つ子の種類や量に制限を加えることも重要である。
そこで本稿では,大きめの述語に加えて,細粒度三重項キューを利用するためのDRM(Dual-granularity Relation Modeling)ネットワークを提案する。
DRMは2つの視点からコンパクトでバランスの取れた表現を生成し、関係認識を容易にする。
さらに、頭部述語/トリップレットから尾部への変化を伝達するDKT(Dual-granularity Knowledge Transfer)戦略を導入し、尾部のパターンの多様性を強化し、尾部の問題を緩和する。
広汎な実験により,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する手法の有効性が実証された。
私たちのコードは \url{https://github.com/jkli1998/DRM} で利用可能です。
関連論文リスト
- S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation [27.97296273461145]
WSSGG(Weakly Supervised Scene Graph Generation)研究は、最近、完全に教師されたアプローチの代替として現れた。
弱教師付きSGG(LLM4SGG)のための新しいアプローチ、すなわちLarge Language Modelを提案する。
Recall@Kと平均Recall@Kは、最先端のWSSGG法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-16T13:49:46Z) - Compositional Feature Augmentation for Unbiased Scene Graph Generation [28.905732042942066]
シーングラフ生成(SGG)は、与えられた画像内のすべての視覚的関係三重項、pred、obj>を検出することを目的としている。
ユビキタスな長い尾の述語分布のため、今日のSGGモデルはいまだに頭部述語に偏っている。
本稿では, バイアス問題を緩和する最初の非バイアス型SGG作業である, 合成特徴増強(CFA)戦略を提案する。
論文 参考訳(メタデータ) (2023-08-13T08:02:14Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation [55.429541407920304]
対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-16T18:14:23Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。