論文の概要: Decomposed Prototype Learning for Few-Shot Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.10863v2
- Date: Thu, 26 Dec 2024 08:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:31.554245
- Title: Decomposed Prototype Learning for Few-Shot Scene Graph Generation
- Title(参考訳): Few-Shot Scene Graph 生成のための分解型プロトタイプ学習
- Authors: Xingchen Li, Jun Xiao, Guikun Chen, Yinfu Feng, Yi Yang, An-an Liu, Long Chen,
- Abstract要約: シーングラフ生成のためのDPL(Decomposed Prototype Learning)モデルを提案する。
まず,表現対象や対象の多様な意味や視覚的パターンを捉えるために,分解可能なプロトタイプ空間を構築した。
- 参考スコア(独自算出の注目度): 42.65759272241633
- License:
- Abstract: Today's scene graph generation (SGG) models typically require abundant manual annotations to learn new predicate types. Therefore, it is difficult to apply them to real-world applications with massive uncommon predicate categories whose annotations are hard to collect. In this paper, we focus on Few-Shot SGG (FSSGG), which encourages SGG models to be able to quickly transfer previous knowledge and recognize unseen predicates well with only a few examples. However, current methods for FSSGG are hindered by the high intra-class variance of predicate categories in SGG: On one hand, each predicate category commonly has multiple semantic meanings under different contexts. On the other hand, the visual appearance of relation triplets with the same predicate differs greatly under different subject-object compositions. Such great variance of inputs makes it hard to learn generalizable representation for each predicate category with current few-shot learning (FSL) methods. However, we found that this intra-class variance of predicates is highly related to the composed subjects and objects. To model the intra-class variance of predicates with subject-object context, we propose a novel Decomposed Prototype Learning (DPL) model for FSSGG. Specifically, we first construct a decomposable prototype space to capture diverse semantics and visual patterns of subjects and objects for predicates by decomposing them into multiple prototypes. Afterwards, we integrate these prototypes with different weights to generate query-adaptive predicate representation with more reliable semantics for each query sample. We conduct extensive experiments and compare with various baseline methods to show the effectiveness of our method.
- Abstract(参考訳): 今日のシーングラフ生成(SGG)モデルは一般的に、新しい述語型を学ぶために豊富な手動アノテーションを必要とする。
そのため,アノテーションの収集が困難である大規模非共通述語カテゴリを実世界のアプリケーションに適用することは困難である。
本稿では,Few-Shot SGG(FSSGG)に着目し,SGGモデルが先行知識を素早く伝達し,未知の述語をよく認識できるようにする。
しかしながら、現在のFSSGGの手法は、SGGにおける述語圏の高階内分散によって妨げられている: 一方、各述語圏は、一般的に異なる文脈下で複数の意味を持つ。
一方、同じ述語を持つ関係三重項の視覚的外観は、異なる対象物組成下で大きく異なる。
このような入力の大きなばらつきは、現在の数ショット学習法(FSL)を用いて各述語カテゴリの一般化可能な表現を学習することを困難にしている。
しかし,この述語のクラス内変異は,合成対象や対象物と強く関連していることが判明した。
そこで本研究では,FSSGGのためのDPL(Decomposed Prototype Learning)モデルを提案する。
具体的には、まず、複数のプロトタイプに分解することで、予測対象と対象の多様な意味や視覚的パターンを捉えるために、分解可能なプロトタイプ空間を構築します。
その後、各クエリサンプルに対してより信頼性の高いセマンティクスを備えたクエリ適応述語表現を生成するために、これらのプロトタイプを異なる重みで統合する。
本手法の有効性を示すため, 広範囲な実験を行い, 各種ベースライン法との比較を行った。
関連論文リスト
- Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation [21.772806350802203]
シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。
既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
論文 参考訳(メタデータ) (2024-07-22T05:53:46Z) - Towards Lifelong Scene Graph Generation with Knowledge-ware In-context
Prompt Learning [24.98058940030532]
画像内のオブジェクトのペア間の視覚的関係を予測するためのシーングラフ生成(SGG)。
この研究は、先行関係予測のスイートに固有の落とし穴に対処しようと試みている。
事前訓練された言語モデルにおける文脈内学習の成果に触発されて、我々のアプローチは関係を予測できる能力をモデルに付与する。
論文 参考訳(メタデータ) (2024-01-26T03:43:22Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Hierarchical Memory Learning for Fine-Grained Scene Graph Generation [49.39355372599507]
本稿では,HML(Hierarchical Memory Learning)フレームワークを提案する。
粗い述語と細かな述語を自律的に分割した後、モデルはまず粗い述語で訓練され、次に細かな述語を学ぶ。
論文 参考訳(メタデータ) (2022-03-14T08:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。