論文の概要: RA-SGG: Retrieval-Augmented Scene Graph Generation Framework via Multi-Prototype Learning
- arxiv url: http://arxiv.org/abs/2412.12788v1
- Date: Tue, 17 Dec 2024 10:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:36.681557
- Title: RA-SGG: Retrieval-Augmented Scene Graph Generation Framework via Multi-Prototype Learning
- Title(参考訳): RA-SGG:マルチプロトタイプ学習による検索拡張シーングラフ生成フレームワーク
- Authors: Kanghoon Yoon, Kibum Kim, Jaehyung Jeon, Yeonjun In, Donghyun Kim, Chanyoung Park,
- Abstract要約: シーングラフ生成(SGG)研究は、長い尾の述語分布と述語間の意味的曖昧さの2つの根本的な課題に悩まされている。
本稿では,マルチラベル化可能なインスタンスを識別し,元のラベルにセマンティックに類似したマルチラベルでシングルラベルを拡張可能な検索言語Retrieval-Augmented Scene Graph Generation (RA-SGG)を提案する。
RA-SGGは、長い尾の分布と述語の意味的あいまいさに起因するバイアス予測の問題を効果的に緩和する。
- 参考スコア(独自算出の注目度): 24.52282123604646
- License:
- Abstract: Scene Graph Generation (SGG) research has suffered from two fundamental challenges: the long-tailed predicate distribution and semantic ambiguity between predicates. These challenges lead to a bias towards head predicates in SGG models, favoring dominant general predicates while overlooking fine-grained predicates. In this paper, we address the challenges of SGG by framing it as multi-label classification problem with partial annotation, where relevant labels of fine-grained predicates are missing. Under the new frame, we propose Retrieval-Augmented Scene Graph Generation (RA-SGG), which identifies potential instances to be multi-labeled and enriches the single-label with multi-labels that are semantically similar to the original label by retrieving relevant samples from our established memory bank. Based on augmented relations (i.e., discovered multi-labels), we apply multi-prototype learning to train our SGG model. Several comprehensive experiments have demonstrated that RA-SGG outperforms state-of-the-art baselines by up to 3.6% on VG and 5.9% on GQA, particularly in terms of F@K, showing that RA-SGG effectively alleviates the issue of biased prediction caused by the long-tailed distribution and semantic ambiguity of predicates.
- Abstract(参考訳): シーングラフ生成(SGG)研究は、長い尾の述語分布と述語間の意味的曖昧さの2つの根本的な課題に悩まされている。
これらの課題は、SGGモデルにおける頭部述語への偏りをもたらし、粒度の細かい述語を見下ろしながら支配的な一般述語を好む。
本稿では,SGGの課題を,細粒度述語のラベルが欠落している部分アノテーションを用いた多ラベル分類問題とみなすことで解決する。
提案手法では,既存のメモリバンクから関連サンプルを検索することで,複数のラベルにセマンティックに類似したシングルラベルを付加し,マルチラベル化の可能なインスタンスを識別する。
拡張関係(マルチラベル発見)に基づいて,SGGモデルの学習にマルチプロトタイプ学習を適用した。
いくつかの総合的な実験では、RA-SGGはVGが最大3.6%、GQAが5.9%、特にF@Kが最大3.6%向上し、RA-SGGは長い尾の分布と述語の意味的あいまいさによるバイアス予測の問題を効果的に緩和することを示した。
関連論文リスト
- Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction [12.319354506916547]
微粒なシーングラフ生成のためのサンプルレベルバイアス予測(SBP)手法を提案する。
まず、古典的なSGGモデルを訓練し、補正バイアスセットを構築する。
そこで我々は,BGAN(Bias-Oriented Generative Adversarial Network)を考案し,構築した補正バイアスを予測する。
論文 参考訳(メタデータ) (2024-07-27T13:49:06Z) - Leveraging Predicate and Triplet Learning for Scene Graph Generation [31.09787444957997]
SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。
本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。
提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
論文 参考訳(メタデータ) (2024-06-04T07:23:41Z) - Adaptive Self-training Framework for Fine-grained Scene Graph Generation [29.37568710952893]
シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。
SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。
各種SGGモデルにおけるST-SGGの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-18T08:10:34Z) - ALF: Adaptive Label Finetuning for Scene Graph Generation [116.59868289196157]
画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み
関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。
我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。
ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
論文 参考訳(メタデータ) (2023-12-29T01:37:27Z) - Compositional Feature Augmentation for Unbiased Scene Graph Generation [28.905732042942066]
シーングラフ生成(SGG)は、与えられた画像内のすべての視覚的関係三重項、pred、obj>を検出することを目的としている。
ユビキタスな長い尾の述語分布のため、今日のSGGモデルはいまだに頭部述語に偏っている。
本稿では, バイアス問題を緩和する最初の非バイアス型SGG作業である, 合成特徴増強(CFA)戦略を提案する。
論文 参考訳(メタデータ) (2023-08-13T08:02:14Z) - Label Semantic Knowledge Distillation for Unbiased Scene Graph
Generation [34.20922091969159]
未知のシーングラフ生成(SGG)のためのモデル非依存ラベル意味知識蒸留(LS-KD)を提案する。
LS-KDは、予測されたラベル意味分布(LSD)を元の1ホットターゲットラベルと融合することにより、各対象物に対してソフトラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-08-07T16:19:19Z) - NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation [65.78472854070316]
我々は,SGG:NICESTのための新しいNoIsyラベルCorrEction and Sample Training戦略を提案する。
NICEはまずノイズのあるサンプルを検出し、さらに高品質な述語ラベルを割り当てる。
NICESTは任意のSGGアーキテクチャにシームレスに組み込んで、さまざまな述語カテゴリのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2022-07-27T06:25:47Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - Hierarchical Memory Learning for Fine-Grained Scene Graph Generation [49.39355372599507]
本稿では,HML(Hierarchical Memory Learning)フレームワークを提案する。
粗い述語と細かな述語を自律的に分割した後、モデルはまず粗い述語で訓練され、次に細かな述語を学ぶ。
論文 参考訳(メタデータ) (2022-03-14T08:01:14Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。