論文の概要: Panoptic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2207.11247v1
- Date: Fri, 22 Jul 2022 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:28:57.594587
- Title: Panoptic Scene Graph Generation
- Title(参考訳): パンオプティカルシーングラフ生成
- Authors: Jingkang Yang, Yi Zhe Ang, Zujin Guo, Kaiyang Zhou, Wayne Zhang, and
Ziwei Liu
- Abstract要約: パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
- 参考スコア(独自算出の注目度): 41.534209967051645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research addresses scene graph generation (SGG) -- a critical
technology for scene understanding in images -- from a detection perspective,
i.e., objects are detected using bounding boxes followed by prediction of their
pairwise relationships. We argue that such a paradigm causes several problems
that impede the progress of the field. For instance, bounding box-based labels
in current datasets usually contain redundant classes like hairs, and leave out
background information that is crucial to the understanding of context. In this
work, we introduce panoptic scene graph generation (PSG), a new problem task
that requires the model to generate a more comprehensive scene graph
representation based on panoptic segmentations rather than rigid bounding
boxes. A high-quality PSG dataset, which contains 49k well-annotated
overlapping images from COCO and Visual Genome, is created for the community to
keep track of its progress. For benchmarking, we build four two-stage
baselines, which are modified from classic methods in SGG, and two one-stage
baselines called PSGTR and PSGFormer, which are based on the efficient
Transformer-based detector, i.e., DETR. While PSGTR uses a set of queries to
directly learn triplets, PSGFormer separately models the objects and relations
in the form of queries from two Transformer decoders, followed by a
prompting-like relation-object matching mechanism. In the end, we share
insights on open challenges and future directions.
- Abstract(参考訳): 既存の研究では、画像のシーン理解のための重要な技術であるシーングラフ生成(SGG)が検出の観点から検出されている。
このようなパラダイムは、この分野の進歩を妨げるいくつかの問題を引き起こすと論じる。
例えば、現在のデータセットにおけるボックスベースのラベルのバウンディングは通常、ヘアのような冗長なクラスを含み、コンテキスト理解に不可欠なバックグラウンド情報を除外する。
本研究では,厳密なバウンディングボックスではなく,パノプティカルなセグメンテーションに基づいて,より包括的なシーングラフ表現をモデルに要求する新しい問題課題である,パノプティカルシーングラフ生成(PSG)を導入する。
cocoと視覚ゲノムからの49k重なり合った画像を含む高品質psgデータセットがコミュニティのために作成され、その進捗を追跡している。
ベンチマークには,sggの古典的な手法から修正した4つの2段ベースラインと,効率的なトランスフォーマーベースの検出器であるdetrに基づくpsgtrとpsgformerと呼ばれる2つの1段ベースラインを構築した。
psgtrはトリプレットを直接学習するために一連のクエリを使用するが、psgformerは2つのトランスフォーマーデコーダからのクエリ形式でオブジェクトとリレーションを別々にモデル化し、プロンプトライクなリレーション・オブジェクトマッチング機構を使用する。
最後に、オープンチャレンジと今後の方向性に関する洞察を共有します。
関連論文リスト
- DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - TextPSG: Panoptic Scene Graph Generation from Textual Descriptions [78.1140391134517]
我々は、純文記述(Caption-to-PSG)によるパノプティカルシーングラフ生成の新たな課題について検討する。
鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。
本研究では,4つのモジュール,すなわちリージョングルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。
論文 参考訳(メタデータ) (2023-10-10T22:36:15Z) - Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [54.92476119356985]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。
現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文 参考訳(メタデータ) (2023-07-17T17:58:37Z) - 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop [1.5362025549031049]
Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
本稿では,Global Relation Networkの2段階パラダイムであるGRNetを提案する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-06T09:47:46Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。