論文の概要: Robo-SGG: Exploiting Layout-Oriented Normalization and Restitution for Robust Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2504.12606v1
- Date: Thu, 17 Apr 2025 03:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:40.941340
- Title: Robo-SGG: Exploiting Layout-Oriented Normalization and Restitution for Robust Scene Graph Generation
- Title(参考訳): Robo-SGG:ロバストなシーングラフ生成のためのレイアウト指向正規化の爆発と再構成
- Authors: Changsheng Lv, Mengshi Qi, Zijian Fu, Huadong Ma,
- Abstract要約: 本稿では,ロバストシーングラフ生成のための新しい手法Robo-SGG(Layout-Oriented Normalization and Restitution for Robust Scene Graph Generation)を提案する。
提案するRobo-SGGモジュールは,任意のベースラインSGGモデルに容易に統合可能なプラグイン・アンド・プレイコンポーネントとして設計されている。
我々は,PredCls,SGCls,SGDetタスクに対するmR@50の5.6%,8.0%,6.5%の相対的な改善を実現し,汚職シーングラフ生成ベンチマーク(VG-C,GQA)における新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 22.58434223222062
- License:
- Abstract: In this paper, we introduce a novel method named Robo-SGG, i.e., Layout-Oriented Normalization and Restitution for Robust Scene Graph Generation. Compared to the existing SGG setting, the robust scene graph generation aims to perform inference on a diverse range of corrupted images, with the core challenge being the domain shift between the clean and corrupted images. Existing SGG methods suffer from degraded performance due to compromised visual features e.g., corruption interference or occlusions. To obtain robust visual features, we exploit the layout information, which is domain-invariant, to enhance the efficacy of existing SGG methods on corrupted images. Specifically, we employ Instance Normalization(IN) to filter out the domain-specific feature and recover the unchangeable structural features, i.e., the positional and semantic relationships among objects by the proposed Layout-Oriented Restitution. Additionally, we propose a Layout-Embedded Encoder (LEE) that augments the existing object and predicate encoders within the SGG framework, enriching the robust positional and semantic features of objects and predicates. Note that our proposed Robo-SGG module is designed as a plug-and-play component, which can be easily integrated into any baseline SGG model. Extensive experiments demonstrate that by integrating the state-of-the-art method into our proposed Robo-SGG, we achieve relative improvements of 5.6%, 8.0%, and 6.5% in mR@50 for PredCls, SGCls, and SGDet tasks on the VG-C dataset, respectively, and achieve new state-of-the-art performance in corruption scene graph generation benchmark (VG-C and GQA-C). We will release our source code and model.
- Abstract(参考訳): 本稿では,Robo-SGGという新しい手法,すなわち,ロバストシーングラフ生成のためのレイアウト指向正規化と再構成を提案する。
既存のSGG設定と比較して、堅牢なシーングラフ生成は、さまざまな破損した画像に対して推論を行うことを目的としており、その中心となる課題は、クリーンな画像と破損した画像のドメインシフトである。
既存のSGGメソッドは、例えば、汚職の干渉や閉塞といった視覚的特徴が損なわれ、劣化したパフォーマンスに悩まされる。
強靭な視覚的特徴を得るために,既存のSGG法の有効性を高めるために,ドメイン不変なレイアウト情報を利用する。
具体的には、インスタンス正規化(IN)を用いて、ドメイン固有の特徴をフィルタリングし、変更不可能な構造的特徴、すなわち、提案されたレイアウト指向再構成(Layout-Oriented Restitution)によるオブジェクトの位置的および意味的関係を復元する。
さらに、既存のオブジェクトを拡張し、SGGフレームワーク内で述語エンコーダを述語するLayout-Embedded Encoder (LEE)を提案する。
提案するRobo-SGGモジュールは,任意のベースラインSGGモデルに容易に統合可能なプラグイン・アンド・プレイコンポーネントとして設計されている。
提案したRobo-SGGに最先端の手法を組み込むことで,VG-Cデータセット上でのPredCls,SGCls,SGDetタスクに対するmR@50の5.6%,8.0%,6.5%の相対的な改善を実現し,汚職シーングラフ生成ベンチマーク(VG-C,GQA-C)において,新たな最先端性能を実現することを示す。
ソースコードとモデルをリリースします。
関連論文リスト
- REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation [1.3936983888175871]
SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
現在の手法では,(1)関係予測の精度の向上,(2)対象検出の精度の向上,(3)3つの目標を同時にバランスさせることを目標とせず,遅延の低減に重点を置いている。
提案手法であるREACTモデルは,既存のSGGモデルの中で最も高い推論速度を実現し,関係予測性能を犠牲にすることなくオブジェクト検出精度を向上させる。
論文 参考訳(メタデータ) (2024-05-25T08:06:12Z) - AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation [40.149652254414185]
本稿では,航空画像都市景観グラフ生成(AUG)データセットを構築し,公開する。
AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。
複雑な都市景観において局地的な状況が過大評価されるのを避けるため,本稿では,新たな局地性保存グラフ畳み込みネットワーク(LPG)を提案する。
論文 参考訳(メタデータ) (2024-04-11T14:29:30Z) - HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation [13.929906773382752]
視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。
そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。
また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-18T17:59:10Z) - Adaptive Self-training Framework for Fine-grained Scene Graph Generation [29.37568710952893]
シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。
SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。
各種SGGモデルにおけるST-SGGの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-18T08:10:34Z) - Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文 参考訳(メタデータ) (2023-11-18T06:49:17Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。