論文の概要: Decomposed Prototype Learning for Few-Shot Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.10863v2
- Date: Thu, 26 Dec 2024 08:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:31.554245
- Title: Decomposed Prototype Learning for Few-Shot Scene Graph Generation
- Title(参考訳): Few-Shot Scene Graph 生成のための分解型プロトタイプ学習
- Authors: Xingchen Li, Jun Xiao, Guikun Chen, Yinfu Feng, Yi Yang, An-an Liu, Long Chen,
- Abstract要約: シーングラフ生成のためのDPL(Decomposed Prototype Learning)モデルを提案する。
まず,表現対象や対象の多様な意味や視覚的パターンを捉えるために,分解可能なプロトタイプ空間を構築した。
- 参考スコア(独自算出の注目度): 42.65759272241633
- License:
- Abstract: Today's scene graph generation (SGG) models typically require abundant manual annotations to learn new predicate types. Therefore, it is difficult to apply them to real-world applications with massive uncommon predicate categories whose annotations are hard to collect. In this paper, we focus on Few-Shot SGG (FSSGG), which encourages SGG models to be able to quickly transfer previous knowledge and recognize unseen predicates well with only a few examples. However, current methods for FSSGG are hindered by the high intra-class variance of predicate categories in SGG: On one hand, each predicate category commonly has multiple semantic meanings under different contexts. On the other hand, the visual appearance of relation triplets with the same predicate differs greatly under different subject-object compositions. Such great variance of inputs makes it hard to learn generalizable representation for each predicate category with current few-shot learning (FSL) methods. However, we found that this intra-class variance of predicates is highly related to the composed subjects and objects. To model the intra-class variance of predicates with subject-object context, we propose a novel Decomposed Prototype Learning (DPL) model for FSSGG. Specifically, we first construct a decomposable prototype space to capture diverse semantics and visual patterns of subjects and objects for predicates by decomposing them into multiple prototypes. Afterwards, we integrate these prototypes with different weights to generate query-adaptive predicate representation with more reliable semantics for each query sample. We conduct extensive experiments and compare with various baseline methods to show the effectiveness of our method.
- Abstract(参考訳): 今日のシーングラフ生成(SGG)モデルは一般的に、新しい述語型を学ぶために豊富な手動アノテーションを必要とする。
そのため,アノテーションの収集が困難である大規模非共通述語カテゴリを実世界のアプリケーションに適用することは困難である。
本稿では,Few-Shot SGG(FSSGG)に着目し,SGGモデルが先行知識を素早く伝達し,未知の述語をよく認識できるようにする。
しかしながら、現在のFSSGGの手法は、SGGにおける述語圏の高階内分散によって妨げられている: 一方、各述語圏は、一般的に異なる文脈下で複数の意味を持つ。
一方、同じ述語を持つ関係三重項の視覚的外観は、異なる対象物組成下で大きく異なる。
このような入力の大きなばらつきは、現在の数ショット学習法(FSL)を用いて各述語カテゴリの一般化可能な表現を学習することを困難にしている。
しかし,この述語のクラス内変異は,合成対象や対象物と強く関連していることが判明した。
そこで本研究では,FSSGGのためのDPL(Decomposed Prototype Learning)モデルを提案する。
具体的には、まず、複数のプロトタイプに分解することで、予測対象と対象の多様な意味や視覚的パターンを捉えるために、分解可能なプロトタイプ空間を構築します。
その後、各クエリサンプルに対してより信頼性の高いセマンティクスを備えたクエリ適応述語表現を生成するために、これらのプロトタイプを異なる重みで統合する。
本手法の有効性を示すため, 広範囲な実験を行い, 各種ベースライン法との比較を行った。
関連論文リスト
- Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation [21.772806350802203]
シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。
既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
論文 参考訳(メタデータ) (2024-07-22T05:53:46Z) - Panoptic Scene Graph Generation with Semantics-Prototype Learning [23.759498629378772]
Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。
アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。
そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
論文 参考訳(メタデータ) (2023-07-28T14:04:06Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Hierarchical Memory Learning for Fine-Grained Scene Graph Generation [49.39355372599507]
本稿では,HML(Hierarchical Memory Learning)フレームワークを提案する。
粗い述語と細かな述語を自律的に分割した後、モデルはまず粗い述語で訓練され、次に細かな述語を学ぶ。
論文 参考訳(メタデータ) (2022-03-14T08:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。