論文の概要: 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop
- arxiv url: http://arxiv.org/abs/2302.02651v1
- Date: Mon, 6 Feb 2023 09:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:03:32.276060
- Title: 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop
- Title(参考訳): eccv'22 sensehumanワークショップとpsgコンペティションのための第1位ソリューション
- Authors: Qixun Wang, Xiaofeng Guo and Haofan Wang
- Abstract要約: Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
本稿では,Global Relation Networkの2段階パラダイムであるGRNetを提案する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.5362025549031049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph (PSG) generation aims to generate scene graph
representations based on panoptic segmentation instead of rigid bounding boxes.
Existing PSG methods utilize one-stage paradigm which simultaneously generates
scene graphs and predicts semantic segmentation masks or two-stage paradigm
that first adopt an off-the-shelf panoptic segmentor, then pairwise
relationship prediction between these predicted objects. One-stage approach
despite having a simplified training paradigm, its segmentation results are
usually under-satisfactory, while two-stage approach lacks global context and
leads to low performance on relation prediction. To bridge this gap, in this
paper, we propose GRNet, a Global Relation Network in two-stage paradigm, where
the pre-extracted local object features and their corresponding masks are fed
into a transformer with class embeddings. To handle relation ambiguity and
predicate classification bias caused by long-tailed distribution, we formulate
relation prediction in the second stage as a multi-class classification task
with soft label. We conduct comprehensive experiments on OpenPSG dataset and
achieve the state-of-art performance on the leadboard. We also show the
effectiveness of our soft label strategy for long-tailed classes in ablation
studies. Our code has been released in https://github.com/wangqixun/mfpsg.
- Abstract(参考訳): Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
既存のPSG手法では、シーングラフとセマンティックセグメンテーションマスクを同時に生成するワンステージパラダイムと、最初にオフザシェルのパノプティクスセグメンタを採用する2ステージパラダイムを用いて、予測対象間のペアワイズ関係を予測する。
単純なトレーニングパラダイムを持つ一方、セグメンテーションの結果は満足度が低いが、2段階のアプローチではグローバルなコンテキストが欠如し、関係予測のパフォーマンスが低下する。
そこで本稿では,このギャップを埋めるため,二段階パラダイムにおけるグローバル関係ネットワークgrnetを提案する。
長期分布による関係曖昧さと予測的分類バイアスに対処するため,ソフトラベルを用いた多クラス分類タスクとして,第2段階で関係予測を定式化する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
また,アブレーション研究における長期学習におけるソフトラベル戦略の有効性を示した。
私たちのコードはhttps://github.com/wangqixun/mfpsgでリリースされています。
関連論文リスト
- A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [28.445190357176312]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。
現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文 参考訳(メタデータ) (2023-07-17T17:58:37Z) - PUPS: Point Cloud Unified Panoptic Segmentation [13.668363631123649]
本稿では,シンプルだが効果的な点群統合パノプティックセグメンテーション(PUPS)フレームワークを提案する。
PUPSは、ポイントレベルの分類器のセットを使用して、エンド・ツー・エンドの方法でセマンティクスとインスタンス・グループを直接予測する。
PUPSはSemantic KITTI Panoptic segmentation Taskのリーダーボードで1位を獲得し、nuScenesの最先端の結果を得た。
論文 参考訳(メタデータ) (2023-02-13T08:42:41Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - Graph Spectral Embedding using the Geodesic Betweeness Centrality [76.27138343125985]
本稿では、局所的な類似性、接続性、グローバル構造を教師なしで表現するグラフSylvester Embedding (GSE)を紹介する。
GSEはシルヴェスター方程式の解を用いて、ネットワーク構造と近傍の近接を1つの表現で捉える。
論文 参考訳(メタデータ) (2022-05-07T04:11:23Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative
Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。
利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。
本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文 参考訳(メタデータ) (2020-06-11T17:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。