論文の概要: 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop
- arxiv url: http://arxiv.org/abs/2302.02651v1
- Date: Mon, 6 Feb 2023 09:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:03:32.276060
- Title: 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop
- Title(参考訳): eccv'22 sensehumanワークショップとpsgコンペティションのための第1位ソリューション
- Authors: Qixun Wang, Xiaofeng Guo and Haofan Wang
- Abstract要約: Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
本稿では,Global Relation Networkの2段階パラダイムであるGRNetを提案する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.5362025549031049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph (PSG) generation aims to generate scene graph
representations based on panoptic segmentation instead of rigid bounding boxes.
Existing PSG methods utilize one-stage paradigm which simultaneously generates
scene graphs and predicts semantic segmentation masks or two-stage paradigm
that first adopt an off-the-shelf panoptic segmentor, then pairwise
relationship prediction between these predicted objects. One-stage approach
despite having a simplified training paradigm, its segmentation results are
usually under-satisfactory, while two-stage approach lacks global context and
leads to low performance on relation prediction. To bridge this gap, in this
paper, we propose GRNet, a Global Relation Network in two-stage paradigm, where
the pre-extracted local object features and their corresponding masks are fed
into a transformer with class embeddings. To handle relation ambiguity and
predicate classification bias caused by long-tailed distribution, we formulate
relation prediction in the second stage as a multi-class classification task
with soft label. We conduct comprehensive experiments on OpenPSG dataset and
achieve the state-of-art performance on the leadboard. We also show the
effectiveness of our soft label strategy for long-tailed classes in ablation
studies. Our code has been released in https://github.com/wangqixun/mfpsg.
- Abstract(参考訳): Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
既存のPSG手法では、シーングラフとセマンティックセグメンテーションマスクを同時に生成するワンステージパラダイムと、最初にオフザシェルのパノプティクスセグメンタを採用する2ステージパラダイムを用いて、予測対象間のペアワイズ関係を予測する。
単純なトレーニングパラダイムを持つ一方、セグメンテーションの結果は満足度が低いが、2段階のアプローチではグローバルなコンテキストが欠如し、関係予測のパフォーマンスが低下する。
そこで本稿では,このギャップを埋めるため,二段階パラダイムにおけるグローバル関係ネットワークgrnetを提案する。
長期分布による関係曖昧さと予測的分類バイアスに対処するため,ソフトラベルを用いた多クラス分類タスクとして,第2段階で関係予測を定式化する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
また,アブレーション研究における長期学習におけるソフトラベル戦略の有効性を示した。
私たちのコードはhttps://github.com/wangqixun/mfpsgでリリースされています。
関連論文リスト
- OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models [28.742671870397757]
Panoptic Scene Graph Generation (PSG) は、オブジェクトを分割し、それらの関係を認識し、画像の構造的理解を可能にすることを目的としている。
従来の手法では、事前定義されたオブジェクトと関係カテゴリの予測に重点を置いており、そのため、オープンワールドシナリオでのアプリケーションを制限する。
本稿では,事前訓練された開集合パノプティックセグメンテーションモデルと統合された開集合関係予測の課題に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-15T19:56:42Z) - Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [54.92476119356985]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。
現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文 参考訳(メタデータ) (2023-07-17T17:58:37Z) - PUPS: Point Cloud Unified Panoptic Segmentation [13.668363631123649]
本稿では,シンプルだが効果的な点群統合パノプティックセグメンテーション(PUPS)フレームワークを提案する。
PUPSは、ポイントレベルの分類器のセットを使用して、エンド・ツー・エンドの方法でセマンティクスとインスタンス・グループを直接予測する。
PUPSはSemantic KITTI Panoptic segmentation Taskのリーダーボードで1位を獲得し、nuScenesの最先端の結果を得た。
論文 参考訳(メタデータ) (2023-02-13T08:42:41Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative
Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。
利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。
本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文 参考訳(メタデータ) (2020-06-11T17:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。