論文の概要: Ensemble Predicate Decoding for Unbiased Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2408.14187v1
- Date: Mon, 26 Aug 2024 11:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:13:24.765210
- Title: Ensemble Predicate Decoding for Unbiased Scene Graph Generation
- Title(参考訳): アンサンブル型シーングラフ生成のための述語復号法
- Authors: Jiasong Feng, Lichun Wang, Hongbo Xu, Kai Xu, Baocai Yin,
- Abstract要約: シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。
よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。
本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
- 参考スコア(独自算出の注目度): 40.01591739856469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation (SGG) aims to generate a comprehensive graphical representation that accurately captures the semantic information of a given scenario. However, the SGG model's performance in predicting more fine-grained predicates is hindered by a significant predicate bias. According to existing works, the long-tail distribution of predicates in training data results in the biased scene graph. However, the semantic overlap between predicate categories makes predicate prediction difficult, and there is a significant difference in the sample size of semantically similar predicates, making the predicate prediction more difficult. Therefore, higher requirements are placed on the discriminative ability of the model. In order to address this problem, this paper proposes Ensemble Predicate Decoding (EPD), which employs multiple decoders to attain unbiased scene graph generation. Two auxiliary decoders trained on lower-frequency predicates are used to improve the discriminative ability of the model. Extensive experiments are conducted on the VG, and the experiment results show that EPD enhances the model's representation capability for predicates. In addition, we find that our approach ensures a relatively superior predictive capability for more frequent predicates compared to previous unbiased SGG methods.
- Abstract(参考訳): シーングラフ生成(SGG)は、与えられたシナリオの意味情報を正確にキャプチャする包括的グラフィカル表現を生成することを目的としている。
しかし、よりきめ細かい述語を予測するSGGモデルの性能は、有意な述語バイアスによって妨げられる。
既存の研究によると、トレーニングデータにおける述語の長さ分布は、バイアスのあるシーングラフとなる。
しかし、述語カテゴリー間の意味的重複は述語予測を困難にし、意味論的に類似した述語のサンプルサイズに有意な差があり、述語予測がより困難になる。
したがって、より高い要求はモデルの識別能力に置かれる。
そこで本研究では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
低周波述語で訓練された2つの補助デコーダを用いて、モデルの識別能力を向上させる。
実験結果から,EPDは述語に対するモデルの表現能力を向上することが示された。
さらに,本手法は,従来の未バイアスSGG法と比較して,より頻繁な述語に対して比較的優れた予測能力を確保できることがわかった。
関連論文リスト
- Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation [21.772806350802203]
シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。
既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
論文 参考訳(メタデータ) (2024-07-22T05:53:46Z) - Panoptic Scene Graph Generation with Semantics-Prototype Learning [23.759498629378772]
Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。
アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。
そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
論文 参考訳(メタデータ) (2023-07-28T14:04:06Z) - Unbiased Scene Graph Generation using Predicate Similarities [7.9112365100345965]
シーングラフは、画像に示されるオブジェクト間の関係のグラフィカル表現としてコンピュータビジョンに広く応用されている。
これらの応用は、長い尾の述語分布に起因する偏りのある訓練のため、まだ開発段階に達していない。
同様の述語群に対して,プロセスをいくつかのきめ細かい分類器に分割する新しい分類法を提案する。
Visual Genomeデータセットの広範な実験結果から,提案手法と既存のデバイアス手法を組み合わせることで,SGCls/SGDetタスクに挑戦する尾述語の性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-10-03T13:28:01Z) - CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph
Generation [10.724516317292926]
本稿では,CAME(Context-Aware Mixture-of-Experts)と呼ばれるシンプルな手法を提案する。
我々は、Visual Genomeデータセットの3つのタスクについて広範囲に実験を行い、従来の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-15T10:39:55Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。