論文の概要: Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2407.15396v2
- Date: Thu, 25 Jul 2024 12:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:18:09.015295
- Title: Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation
- Title(参考訳): 無バイアスシーングラフ生成のための意味的多様性を考慮したプロトタイプベース学習
- Authors: Jaehyeong Jeon, Kibum Kim, Kanghoon Yoon, Chanyoung Park,
- Abstract要約: シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。
既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
- 参考スコア(独自算出の注目度): 21.772806350802203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scene graph generation (SGG) task involves detecting objects within an image and predicting predicates that represent the relationships between the objects. However, in SGG benchmark datasets, each subject-object pair is annotated with a single predicate even though a single predicate may exhibit diverse semantics (i.e., semantic diversity), existing SGG models are trained to predict the one and only predicate for each pair. This in turn results in the SGG models to overlook the semantic diversity that may exist in a predicate, thus leading to biased predictions. In this paper, we propose a novel model-agnostic Semantic Diversity-aware Prototype-based Learning (DPL) framework that enables unbiased predictions based on the understanding of the semantic diversity of predicates. Specifically, DPL learns the regions in the semantic space covered by each predicate to distinguish among the various different semantics that a single predicate can represent. Extensive experiments demonstrate that our proposed model-agnostic DPL framework brings significant performance improvement on existing SGG models, and also effectively understands the semantic diversity of predicates.
- Abstract(参考訳): シーングラフ生成(SGG)タスクは、画像内のオブジェクトを検出し、オブジェクト間の関係を表す述語を予測する。
しかし、SGGベンチマークデータセットでは、1つの述語が多様な意味論(セマンティック多様性)を示すとしても、各対象物対に1つの述語が注釈付けされ、既存のSGGモデルは1つの述語と1つの述語のみを予測するように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落とし、バイアスのある予測へと繋がる。
本稿では,述語の意味的多様性の理解に基づいて,偏りのない予測を可能にする,モデルに依存しない意味的多様性を意識したプロトタイプベース学習(DPL)フレームワークを提案する。
具体的には、DPLは各述語がカバーする意味空間内の領域を学習し、単一の述語が表現できる様々な意味論を区別する。
提案したモデルに依存しないDPLフレームワークは,既存のSGGモデルに対して大幅な性能向上をもたらし,述語の意味的多様性を効果的に理解することを示した。
関連論文リスト
- Ensemble Predicate Decoding for Unbiased Scene Graph Generation [40.01591739856469]
シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。
よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。
本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
論文 参考訳(メタデータ) (2024-08-26T11:24:13Z) - Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models [6.8754535229258975]
シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。
テストトリプレットの一部は、トレーニング中に珍しいか、あるいは目に見えず、結果として予測される。
本稿では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現を強化することを提案する。
論文 参考訳(メタデータ) (2024-03-24T15:02:24Z) - Environment-Invariant Curriculum Relation Learning for Fine-Grained
Scene Graph Generation [66.62453697902947]
シーングラフ生成(SGG)タスクは、主観オブジェクト対に基づいて述語を特定するように設計されている。
本研究では,既存のSGG手法にプラグイン・アンド・プレイ方式で適用可能な,環境不変なカリキュラム関係学習(EICR)手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T03:56:15Z) - Panoptic Scene Graph Generation with Semantics-Prototype Learning [23.759498629378772]
Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。
アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。
そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
論文 参考訳(メタデータ) (2023-07-28T14:04:06Z) - Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。
FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。
本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文 参考訳(メタデータ) (2023-03-20T04:54:26Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。