論文の概要: Decomposed Prototype Learning for Few-Shot Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.10863v1
- Date: Mon, 20 Mar 2023 04:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:50:47.827873
- Title: Decomposed Prototype Learning for Few-Shot Scene Graph Generation
- Title(参考訳): 少数シーングラフ生成のための分解プロトタイプ学習
- Authors: Xingchen Li, Long Chen, Guikun Chen, Yinfu Feng, Yi Yang, and Jun Xiao
- Abstract要約: 我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。
FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。
本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
- 参考スコア(独自算出の注目度): 28.796734816086065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's scene graph generation (SGG) models typically require abundant manual
annotations to learn new predicate types. Thus, it is difficult to apply them
to real-world applications with a long-tailed distribution of predicates. In
this paper, we focus on a new promising task of SGG: few-shot SGG (FSSGG).
FSSGG encourages models to be able to quickly transfer previous knowledge and
recognize novel predicates well with only a few examples. Although many
advanced approaches have achieved great success on few-shot learning (FSL)
tasks, straightforwardly extending them into FSSGG is not applicable due to two
intrinsic characteristics of predicate concepts: 1) Each predicate category
commonly has multiple semantic meanings under different contexts. 2) The visual
appearance of relation triplets with the same predicate differs greatly under
different subject-object pairs. Both issues make it hard to model conventional
latent representations for predicate categories with state-of-the-art FSL
methods. To this end, we propose a novel Decomposed Prototype Learning (DPL).
Specifically, we first construct a decomposable prototype space to capture
intrinsic visual patterns of subjects and objects for predicates, and enhance
their feature representations with these decomposed prototypes. Then, we devise
an intelligent metric learner to assign adaptive weights to each support sample
by considering the relevance of their subject-object pairs. We further re-split
the VG dataset and compare DPL with various FSL methods to benchmark this task.
Extensive results show that DPL achieves excellent performance in both base and
novel categories.
- Abstract(参考訳): 今日のシーングラフ生成(sgg)モデルは通常、新しい述語型を学ぶために豊富な手動アノテーションを必要とする。
したがって、長文の述語分布を持つ実世界のアプリケーションに適用することは困難である。
本稿では,SGGの新たな課題として,FSSGG ( few-shot SGG) に焦点を当てる。
FSSGGは、モデルが以前の知識を素早く伝達し、新しい述語をうまく認識できるように促す。
多くの先進的なアプローチは、数ショット学習(FSL)タスクにおいて大きな成功を収めてきたが、直接的にFSSGGに拡張することは、述語概念の2つの本質的な特性のために適用できない。
1)各述語カテゴリーは一般に異なる文脈下で複数の意味意味を持つ。
2) 同じ述語を持つ関係三重項の視覚的外観は,異なる対象物対の下で大きく異なる。
どちらの問題も、最先端のFSL法による述語カテゴリーの従来の潜在表現をモデル化することは困難である。
そこで本研究では,DPL(Decomposed Prototype Learning)を提案する。
具体的には,まず,対象物や対象物の内在的な視覚的パターンを表現し,それらの特徴表現をこれらの分解されたプロトタイプで強化する。
次に、対象と対象のペアの関連性を考慮し、各サポートサンプルに適応重みを割り当てるインテリジェントなメトリック学習器を考案する。
我々は、さらにVGデータセットを再分割し、DPLと様々なFSLメソッドを比較して、このタスクをベンチマークする。
その結果, DPL は, 基本群と新規群の両方で優れた性能を示した。
関連論文リスト
- Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation [21.772806350802203]
シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。
既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
論文 参考訳(メタデータ) (2024-07-22T05:53:46Z) - Panoptic Scene Graph Generation with Semantics-Prototype Learning [23.759498629378772]
Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。
アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。
そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
論文 参考訳(メタデータ) (2023-07-28T14:04:06Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Hierarchical Memory Learning for Fine-Grained Scene Graph Generation [49.39355372599507]
本稿では,HML(Hierarchical Memory Learning)フレームワークを提案する。
粗い述語と細かな述語を自律的に分割した後、モデルはまず粗い述語で訓練され、次に細かな述語を学ぶ。
論文 参考訳(メタデータ) (2022-03-14T08:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。