論文の概要: Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2409.10262v1
- Date: Mon, 16 Sep 2024 13:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:30:17.010651
- Title: Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation
- Title(参考訳): Hydra-SGG:1ステージのシーングラフ生成のためのハイブリッドリレーションアサインメント
- Authors: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang,
- Abstract要約: Hydra-SGGはVG150で10.6 mR@20と16.0 mR@50で最先端のパフォーマンスを達成し、訓練期間は12時間に過ぎなかった。
また、Open Images V6とGQAに新たな最先端技術が設定されている。
- 参考スコア(独自算出の注目度): 57.69385990442078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DETR introduces a simplified one-stage framework for scene graph generation (SGG). However, DETR-based SGG models face two challenges: i) Sparse supervision, as each image typically contains fewer than 10 relation annotations, while the models employ over 100 relation queries. This sparsity arises because each ground truth relation is assigned to only one single query during training. ii) False negative samples, since one ground truth relation may have multiple queries with similar matching scores. These suboptimally matched queries are simply treated as negative samples, causing the loss of valuable supervisory signals. As a response, we devise Hydra-SGG, a one-stage SGG method that adopts a new Hybrid Relation Assignment. This assignment combines a One-to-One Relation Assignment with a newly introduced IoU-based One-to-Many Relation Assignment. Specifically, each ground truth is assigned to multiple relation queries with high IoU subject-object boxes. This Hybrid Relation Assignment increases the number of positive training samples, alleviating sparse supervision. Moreover, we, for the first time, empirically show that self-attention over relation queries helps reduce duplicated relation predictions. We, therefore, propose Hydra Branch, a parameter-sharing auxiliary decoder without a self-attention layer. This design promotes One-to-Many Relation Assignment by enabling different queries to predict the same relation. Hydra-SGG achieves state-of-the-art performance with 10.6 mR@20 and 16.0 mR@50 on VG150, while only requiring 12 training epochs. It also sets a new state-of-the-art on Open Images V6 and and GQA.
- Abstract(参考訳): DETRは、シーングラフ生成(SGG)のための単純化されたワンステージフレームワークを導入した。
しかし、DETRベースのSGGモデルは2つの課題に直面している。
一 それぞれの画像が典型的には10以上の関連アノテーションを含まないため、その一方で、100以上の関連クエリを使用する。
このあいまいさは、トレーニング中に各基底真理関係が1つのクエリにのみ割り当てられることから生じる。
二 偽陰性なサンプル。一つの根拠的真理関係は、類似のスコアを持つ複数のクエリを持つことができる。
これらのサブ最適化されたクエリは単に負のサンプルとして扱われ、貴重な監視信号が失われる。
その結果,Hydra-SGGはHydra-SGG法の一種であり,Hydra-SGG法とHydra-SGG法を組み合わせた。
この割り当ては、新しいIoUベースのワン・ツー・マニー・リレーション・アサインメントとワン・ツー・ワン・リレーション・アサインメントを組み合わせたものである。
具体的には、各基底真理は、高いIoU主対象箱を持つ複数の関係クエリに割り当てられる。
このハイブリッド・リレー・アサインメントは、ポジティブなトレーニングサンプルの数を増やし、スパース・インスペクションを緩和する。
さらに,関係クエリに対する自己注意が,重複関係予測の低減に有効であることを実証的に示す。
そこで我々は,自己アテンション層を持たないパラメータ共有補助デコーダHydra Branchを提案する。
この設計は、異なるクエリが同じ関係を予測できるようにすることで、一対多の関係割り当てを促進する。
Hydra-SGGはVG150で10.6 mR@20と16.0 mR@50で最先端のパフォーマンスを達成し、訓練期間は12時間に過ぎなかった。
また、Open Images V6とGQAに新たな最先端技術が設定されている。
関連論文リスト
- EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。
我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文 参考訳(メタデータ) (2023-01-03T15:33:48Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Hyper-relationship Learning Network for Scene Graph Generation [95.6796681398668]
本稿では,シーングラフ生成のためのハイパーリレーショナル学習ネットワークHLNを提案する。
我々は最も人気のあるSGGデータセット、すなわちVisual Genomeデータセット上でHLNを評価する。
例えば、提案されたHLNは、関係ごとのリコールを11.3%から13.1%に改善し、画像毎のリコールを19.8%から34.9%に維持する。
論文 参考訳(メタデータ) (2022-02-15T09:26:16Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - Tackling the Unannotated: Scene Graph Generation with Bias-Reduced
Models [8.904910414410855]
最先端の結果はまだ十分ではない。例えば、モデルが全体のリコールR@100で31%を得ることができる。
本稿では,自己学習型知識を活かした新しいSGG学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-18T10:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。