論文の概要: Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2409.10262v2
- Date: Wed, 26 Feb 2025 07:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:53:34.624352
- Title: Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation
- Title(参考訳): Hydra-SGG:1ステージのシーングラフ生成のためのハイブリッドリレーションアサインメント
- Authors: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang,
- Abstract要約: Hydra-SGGは、VG150 (16.0 mR@50)、Open Images V6 (50.1 weighted score)、GQA (12.7 mR@50)を含む複数のデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 57.69385990442078
- License:
- Abstract: DETR introduces a simplified one-stage framework for scene graph generation (SGG) but faces challenges of sparse supervision and false negative samples. The former occurs because each image typically contains fewer than 10 relation annotations, while DETR-based SGG models employ over 100 relation queries. Each ground truth relation is assigned to only one query during training. The latter arises when one ground truth relation may have multiple queries with similar matching scores, leading to suboptimally matched queries being treated as negative samples. To address these, we propose Hydra-SGG, a one-stage SGG method featuring a Hybrid Relation Assignment. This approach combines a One-to-One Relation Assignment with an IoU-based One-to-Many Relation Assignment, increasing positive training samples and mitigating sparse supervision. In addition, we empirically demonstrate that removing self-attention between relation queries leads to duplicate predictions, which actually benefits the proposed One-to-Many Relation Assignment. With this insight, we introduce Hydra Branch, an auxiliary decoder without self-attention layers, to further enhance One-to-Many Relation Assignment by promoting different queries to make the same relation prediction. Hydra-SGG achieves state-of-the-art performance on multiple datasets, including VG150 (16.0 mR@50), Open Images V6 (50.1 weighted score), and GQA (12.7 mR@50).
- Abstract(参考訳): DETRは、シーングラフ生成(SGG)のための単純化されたワンステージフレームワークを導入するが、スパース監視と偽陰性サンプルの課題に直面している。
前者は、各画像が典型的には10未満の関係アノテーションを含むのに対して、DETRベースのSGGモデルは100以上の関係クエリを使用するためである。
各基底真理関係は、トレーニング中に1つのクエリに割り当てられる。
後者は、ある基底的真理関係が類似したスコアを持つ複数のクエリを持つ可能性がある場合に生じ、最適化されたクエリが負のサンプルとして扱われる。
そこで我々はHydra-SGG法を提案し,Hydra-SGG法を提案する。
このアプローチは、ワン・ツー・ワン・リレーション・アサインメントと、IoUベースのワン・ツー・マニー・リレーション・アサインメントを組み合わせて、ポジティブなトレーニングサンプルを増やし、スパース・インスペクションを緩和する。
さらに,関係クエリ間の自己アテンションの除去が重複予測につながることを実証的に示し,提案した一対一関係アサインメントの利点を実感する。
そこで本研究では,自己注意層を持たない補助的デコーダであるHydra Branchを導入し,同一の関係予測を行うために,異なるクエリを推進し,一対多の関係割り当てをさらに強化する。
Hydra-SGGはVG150 (16.0 mR@50)、Open Images V6 (50.1重み付きスコア)、GQA (12.7 mR@50)を含む複数のデータセットで最先端のパフォーマンスを達成する。
関連論文リスト
- EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。
我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文 参考訳(メタデータ) (2023-01-03T15:33:48Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Hyper-relationship Learning Network for Scene Graph Generation [95.6796681398668]
本稿では,シーングラフ生成のためのハイパーリレーショナル学習ネットワークHLNを提案する。
我々は最も人気のあるSGGデータセット、すなわちVisual Genomeデータセット上でHLNを評価する。
例えば、提案されたHLNは、関係ごとのリコールを11.3%から13.1%に改善し、画像毎のリコールを19.8%から34.9%に維持する。
論文 参考訳(メタデータ) (2022-02-15T09:26:16Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - Tackling the Unannotated: Scene Graph Generation with Bias-Reduced
Models [8.904910414410855]
最先端の結果はまだ十分ではない。例えば、モデルが全体のリコールR@100で31%を得ることができる。
本稿では,自己学習型知識を活かした新しいSGG学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-18T10:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。