論文の概要: Informative Scene Graph Generation via Debiasing
- arxiv url: http://arxiv.org/abs/2308.05286v2
- Date: Wed, 20 Nov 2024 06:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:45.391844
- Title: Informative Scene Graph Generation via Debiasing
- Title(参考訳): Debiasingによるインフォームティブなシーングラフ生成
- Authors: Lianli Gao, Xinyu Lyu, Yuyu Guo, Yuxuan Hu, Yuan-Fang Li, Lu Xu, Heng Tao Shen, Jingkuan Song,
- Abstract要約: シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としている
データのバイアスのため、現在のモデルは一般的な述語を予測する傾向がある。
本稿では,DB-SGGを提案する。
- 参考スコア(独自算出の注目度): 124.71164256146342
- License:
- Abstract: Scene graph generation aims to detect visual relationship triplets, (subject, predicate, object). Due to biases in data, current models tend to predict common predicates, e.g. "on" and "at", instead of informative ones, e.g. "standing on" and "looking at". This tendency results in the loss of precise information and overall performance. If a model only uses "stone on road" rather than "stone blocking road" to describe an image, it may be a grave misunderstanding. We argue that this phenomenon is caused by two imbalances: semantic space level imbalance and training sample level imbalance. For this problem, we propose DB-SGG, an effective framework based on debiasing but not the conventional distribution fitting. It integrates two components: Semantic Debiasing (SD) and Balanced Predicate Learning (BPL), for these imbalances. SD utilizes a confusion matrix and a bipartite graph to construct predicate relationships. BPL adopts a random undersampling strategy and an ambiguity removing strategy to focus on informative predicates. Benefiting from the model-agnostic process, our method can be easily applied to SGG models and outperforms Transformer by 136.3%, 119.5%, and 122.6% on mR@20 at three SGG sub-tasks on the SGG-VG dataset. Our method is further verified on another complex SGG dataset (SGG-GQA) and two downstream tasks (sentence-to-graph retrieval and image captioning).
- Abstract(参考訳): シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としている。
データに偏りがあるため、現在のモデルでは、例えば"on"や"at"といった一般的な述語を予測し、情報のあるもの、例えば"standing on"や" looking at"などを予測する傾向があります。
この傾向により、正確な情報や全体的なパフォーマンスが失われる。
モデルが「道路の石」ではなく「道路の石」を使って画像を記述する場合、それは重大な誤解である。
この現象は、意味空間レベルの不均衡とサンプルレベルの不均衡の2つの不均衡によって引き起こされる。
そこで本研究では,従来の分散フィッティングではなく,デバイアスに基づく効果的なフレームワークであるDB-SGGを提案する。
セマンティック・デバイアス(SD)とバランスド・プレディデント・ラーニング(BPL)の2つのコンポーネントを統合している。
SDは混乱行列と二部グラフを用いて述語関係を構成する。
BPLはランダムアンダーサンプリング戦略と曖昧性除去戦略を採用し、情報的述語に重点を置いている。
SGG-VGデータセット上の3つのSGGサブタスクにおいて、mR@20上の136.3%、119.5%、122.6%のトランスフォーマーをSGGモデルに容易に適用できる。
提案手法は,SGGデータセット(SGG-GQA)と2つの下流タスク(文間検索と画像キャプション)でさらに検証される。
関連論文リスト
- Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction [12.319354506916547]
微粒なシーングラフ生成のためのサンプルレベルバイアス予測(SBP)手法を提案する。
まず、古典的なSGGモデルを訓練し、補正バイアスセットを構築する。
そこで我々は,BGAN(Bias-Oriented Generative Adversarial Network)を考案し,構築した補正バイアスを予測する。
論文 参考訳(メタデータ) (2024-07-27T13:49:06Z) - Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models [6.8754535229258975]
シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。
テストトリプレットの一部は、トレーニング中に珍しいか、あるいは目に見えず、結果として予測される。
本稿では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現を強化することを提案する。
論文 参考訳(メタデータ) (2024-03-24T15:02:24Z) - TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph
Generation [76.24766055944554]
動的SGGのデノベーションとデボアシングを目的としたネットワークTD$2$-Netを導入する。
TD$2$-Netは、述語分類における平均リコール@10で、第2位の競争相手を12.7%上回っている。
論文 参考訳(メタデータ) (2024-01-23T04:17:42Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - From General to Specific: Informative Scene Graph Generation via Balance
Adjustment [113.04103371481067]
現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。
本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。
提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
論文 参考訳(メタデータ) (2021-08-30T11:39:43Z) - Unbiased Scene Graph Generation from Biased Training [99.88125954889937]
因果推論に基づく新しいSGGフレームワークを提案するが、従来の可能性ではない。
トレーニングされたグラフから反ファクト因果関係を抽出し、悪バイアスから影響を推測する。
特に,無バイアスSGGに対する最終述語スコアとしてTotal Direct Effect(TDE)を用いる。
論文 参考訳(メタデータ) (2020-02-27T07:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。