Fugu-MT 論文翻訳(概要): Fine-Grained Predicates Learning for Scene Graph Generation

論文の概要: Fine-Grained Predicates Learning for Scene Graph Generation

arxiv url: http://arxiv.org/abs/2204.02597v1
Date: Wed, 6 Apr 2022 06:20:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 14:09:17.989108
Title: Fine-Grained Predicates Learning for Scene Graph Generation
Title（参考訳）: シーングラフ生成のためのきめ細かい述語学習
Authors: Xinyu Lyu and Lianli Gao and Yuyu Guo and Zhou Zhao and Hao Huang and Heng Tao Shen and Jingkuan Song
Abstract要約: Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
参考スコア（独自算出の注目度）: 155.48614435437355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The performance of current Scene Graph Generation models is severely hampered by some hard-to-distinguish predicates, e.g., "woman-on/standing on/walking on-beach" or "woman-near/looking at/in front of-child". While general SGG models are prone to predict head predicates and existing re-balancing strategies prefer tail categories, none of them can appropriately handle these hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained image classification, which focuses on differentiating among hard-to-distinguish object classes, we propose a method named Fine-Grained Predicates Learning (FGPL) which aims at differentiating among hard-to-distinguish predicates for Scene Graph Generation task. Specifically, we first introduce a Predicate Lattice that helps SGG models to figure out fine-grained predicate pairs. Then, utilizing the Predicate Lattice, we propose a Category Discriminating Loss and an Entity Discriminating Loss, which both contribute to distinguishing fine-grained predicates while maintaining learned discriminatory power over recognizable ones. The proposed model-agnostic strategy significantly boosts the performances of three benchmark models (Transformer, VCTree, and Motif) by 22.8\%, 24.1\% and 21.7\% of Mean Recall (mR@100) on the Predicate Classification sub-task, respectively. Our model also outperforms state-of-the-art methods by a large margin (i.e., 6.1\%, 4.6\%, and 3.2\% of Mean Recall (mR@100)) on the Visual Genome dataset.
Abstract（参考訳）: 現在のScene Graph Generationモデルのパフォーマンスは、"woman-on/standing on-beach"や"woman-near/ look at-child"といった、区別が難しい述語によって著しく妨げられている。一般的なSGGモデルは、頭部の述語を予測する傾向があり、既存の再バランス戦略は尾の分類を好むが、これら区別が難しい述語を適切に扱うことはできない。そこで本研究では,難解なオブジェクトクラス間の識別に焦点を当てたきめ細かい画像分類から着想を得たFGPL(Fined Predicates Learning)という手法を提案する。具体的には,SGGモデルによる詳細な述語対の探索を支援するPredicate Latticeを導入する。そして、述語格子を用いて、認識可能なものよりも学習された識別力を維持しながら、粒度の細かい述語を識別するのに寄与するカテゴリー識別損失とエンティティ識別損失を提案する。提案するモデル非依存戦略により、3つのベンチマークモデル(transformer, vctree, モチーフ)の性能は、それぞれ、述語分類サブタスクで22.8\%、24.1\%、平均リコール(mr@100)の21.7\%向上する。当社のモデルは,Visual Genomeデータセット上での最先端メソッド(すなわち,6.1\%,4.6\%,および3.2\%のMean Recall(mR@100))よりも優れています。

関連論文リスト

PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
RA-SGG: Retrieval-Augmented Scene Graph Generation Framework via Multi-Prototype Learning [24.52282123604646]
シーングラフ生成(SGG)研究は、長い尾の述語分布と述語間の意味的曖昧さの2つの根本的な課題に悩まされている。本稿では,マルチラベル化可能なインスタンスを識別し,元のラベルにセマンティックに類似したマルチラベルでシングルラベルを拡張可能な検索言語Retrieval-Augmented Scene Graph Generation (RA-SGG)を提案する。 RA-SGGは、長い尾の分布と述語の意味的あいまいさに起因するバイアス予測の問題を効果的に緩和する。
論文参考訳（メタデータ） (2024-12-17T10:47:13Z)
Ensemble Predicate Decoding for Unbiased Scene Graph Generation [40.01591739856469]
シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
論文参考訳（メタデータ） (2024-08-26T11:24:13Z)
Informative Scene Graph Generation via Debiasing [124.71164256146342]
シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としているデータのバイアスのため、現在のモデルは一般的な述語を予測する傾向がある。本稿では,DB-SGGを提案する。
論文参考訳（メタデータ） (2023-08-10T02:04:01Z)
Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-23T13:06:38Z)
Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。 FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文参考訳（メタデータ） (2023-03-20T04:54:26Z)
LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文参考訳（メタデータ） (2023-03-02T09:03:11Z)
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文参考訳（メタデータ） (2022-08-17T09:05:38Z)
Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-11T03:37:57Z)
PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文参考訳（メタデータ） (2020-09-02T08:30:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。