論文の概要: A Fair Ranking and New Model for Panoptic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2407.09216v1
- Date: Fri, 12 Jul 2024 12:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:38:05.380694
- Title: A Fair Ranking and New Model for Panoptic Scene Graph Generation
- Title(参考訳): パン光学シーングラフ生成のための公正ランキングと新しいモデル
- Authors: Julian Lorenz, Alexander Pest, Daniel Kienzle, Katja Ludwig, Rainer Lienhart,
- Abstract要約: Decoupled SceneFormer(DSFormer)は、既存のすべてのシーングラフモデルよりも優れた2段階モデルである。
基本設計原則として、DSFormerは被写体とオブジェクトマスクを直接特徴空間にエンコードする。
- 参考スコア(独自算出の注目度): 51.78798765130832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In panoptic scene graph generation (PSGG), models retrieve interactions between objects in an image which are grounded by panoptic segmentation masks. Previous evaluations on panoptic scene graphs have been subject to an erroneous evaluation protocol where multiple masks for the same object can lead to multiple relation distributions per mask-mask pair. This can be exploited to increase the final score. We correct this flaw and provide a fair ranking over a wide range of existing PSGG models. The observed scores for existing methods increase by up to 7.4 mR@50 for all two-stage methods, while dropping by up to 19.3 mR@50 for all one-stage methods, highlighting the importance of a correct evaluation. Contrary to recent publications, we show that existing two-stage methods are competitive to one-stage methods. Building on this, we introduce the Decoupled SceneFormer (DSFormer), a novel two-stage model that outperforms all existing scene graph models by a large margin of +11 mR@50 and +10 mNgR@50 on the corrected evaluation, thus setting a new SOTA. As a core design principle, DSFormer encodes subject and object masks directly into feature space.
- Abstract(参考訳): パノプティック・シーングラフ生成(PSGG)では、モデルがパノプティック・セグメンテーション・マスクによってグラウンディングされた画像内のオブジェクト間の相互作用を検索する。
従来,同一物体の複数のマスクがマスクとマスクのペアあたりの複数の関係分布を導出する誤った評価プロトコルが提案されてきた。
これは最終スコアを上げるために利用することができる。
我々は、この欠陥を修正し、既存のPSGGモデルに対して公正なランキングを提供する。
既存の手法で観測されたスコアは、すべての2段階法で7.4 mR@50まで増加し、一方、1段階法では19.3 mR@50まで減少し、正しい評価の重要性を強調した。
近年の論文とは対照的に,既存の2段階法は1段階法と競合することを示す。
そこで本研究では,Decoupled SceneFormer(DSFormer)という,既存のシーングラフモデルに対して,修正した評価値に対して,+11mR@50と+10mNgR@50の大きなマージンで優れた2段階モデルを導入し,新たなSOTAを設定した。
基本設計原則として、DSFormerは被写体とオブジェクトマスクを直接特徴空間にエンコードする。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - SSG2: A new modelling paradigm for semantic segmentation [0.0]
セグメンテーションにおける最先端モデルは、単一の静的イメージで動作し、対応するセグメンテーションマスクを生成する。
セマンティック・チェンジ検出の研究から着想を得て,各静的な入力画像に対して生成した可観測物のシーケンスを活用する手法を提案する。
この「時間的」次元を追加することで、シーケンス内の連続した観測間の強い信号相関を利用してエラー率を減少させる。
オーストラリア・ダーウィンのUrbanMonitorは5つのスペクトルバンドと0.2mの空間解像度を持つ正像タイルを特徴とし、ISPRS Potsdamは複数のスペクトルバンドと5cmの地中サンプリングを含む真の正像画像を含む。
論文 参考訳(メタデータ) (2023-10-12T19:08:03Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文 参考訳(メタデータ) (2022-01-27T11:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。