論文の概要: Fine-Grained Predicates Learning for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2204.02597v1
- Date: Wed, 6 Apr 2022 06:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:09:17.989108
- Title: Fine-Grained Predicates Learning for Scene Graph Generation
- Title(参考訳): シーングラフ生成のためのきめ細かい述語学習
- Authors: Xinyu Lyu and Lianli Gao and Yuyu Guo and Zhou Zhao and Hao Huang and
Heng Tao Shen and Jingkuan Song
- Abstract要約: Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
- 参考スコア(独自算出の注目度): 155.48614435437355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of current Scene Graph Generation models is severely hampered
by some hard-to-distinguish predicates, e.g., "woman-on/standing on/walking
on-beach" or "woman-near/looking at/in front of-child". While general SGG
models are prone to predict head predicates and existing re-balancing
strategies prefer tail categories, none of them can appropriately handle these
hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained
image classification, which focuses on differentiating among
hard-to-distinguish object classes, we propose a method named Fine-Grained
Predicates Learning (FGPL) which aims at differentiating among
hard-to-distinguish predicates for Scene Graph Generation task. Specifically,
we first introduce a Predicate Lattice that helps SGG models to figure out
fine-grained predicate pairs. Then, utilizing the Predicate Lattice, we propose
a Category Discriminating Loss and an Entity Discriminating Loss, which both
contribute to distinguishing fine-grained predicates while maintaining learned
discriminatory power over recognizable ones. The proposed model-agnostic
strategy significantly boosts the performances of three benchmark models
(Transformer, VCTree, and Motif) by 22.8\%, 24.1\% and 21.7\% of Mean Recall
(mR@100) on the Predicate Classification sub-task, respectively. Our model also
outperforms state-of-the-art methods by a large margin (i.e., 6.1\%, 4.6\%, and
3.2\% of Mean Recall (mR@100)) on the Visual Genome dataset.
- Abstract(参考訳): 現在のScene Graph Generationモデルのパフォーマンスは、"woman-on/standing on-beach"や"woman-near/ look at-child"といった、区別が難しい述語によって著しく妨げられている。
一般的なSGGモデルは、頭部の述語を予測する傾向があり、既存の再バランス戦略は尾の分類を好むが、これら区別が難しい述語を適切に扱うことはできない。
そこで本研究では,難解なオブジェクトクラス間の識別に焦点を当てたきめ細かい画像分類から着想を得たFGPL(Fined Predicates Learning)という手法を提案する。
具体的には,SGGモデルによる詳細な述語対の探索を支援するPredicate Latticeを導入する。
そして、述語格子を用いて、認識可能なものよりも学習された識別力を維持しながら、粒度の細かい述語を識別するのに寄与するカテゴリー識別損失とエンティティ識別損失を提案する。
提案するモデル非依存戦略により、3つのベンチマークモデル(transformer, vctree, モチーフ)の性能は、それぞれ、述語分類サブタスクで22.8\%、24.1\%、平均リコール(mr@100)の21.7\%向上する。
当社のモデルは,Visual Genomeデータセット上での最先端メソッド(すなわち,6.1\%,4.6\%,および3.2\%のMean Recall(mR@100))よりも優れています。
関連論文リスト
- Ensemble Predicate Decoding for Unbiased Scene Graph Generation [40.01591739856469]
シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。
よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。
本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
論文 参考訳(メタデータ) (2024-08-26T11:24:13Z) - Informative Scene Graph Generation via Debiasing [111.36290856077584]
シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としている
データのバイアスのため、現在のモデルは一般的な述語を予測する傾向がある。
本稿では,DB-SGGを提案する。
論文 参考訳(メタデータ) (2023-08-10T02:04:01Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。
FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。
本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文 参考訳(メタデータ) (2023-03-20T04:54:26Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。