論文の概要: OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.11213v1
- Date: Mon, 15 Jul 2024 19:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:21:30.818381
- Title: OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models
- Title(参考訳): OpenPSG: 大規模マルチモーダルモデルによるオープンセットパノプティクスシーングラフ生成
- Authors: Zijian Zhou, Zheng Zhu, Holger Caesar, Miaojing Shi,
- Abstract要約: Panoptic Scene Graph Generation (PSG) は、オブジェクトを分割し、それらの関係を認識し、画像の構造的理解を可能にすることを目的としている。
従来の手法では、事前定義されたオブジェクトと関係カテゴリの予測に重点を置いており、そのため、オープンワールドシナリオでのアプリケーションを制限する。
本稿では,事前訓練された開集合パノプティックセグメンテーションモデルと統合された開集合関係予測の課題に焦点をあてる。
- 参考スコア(独自算出の注目度): 28.742671870397757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph Generation (PSG) aims to segment objects and recognize their relations, enabling the structured understanding of an image. Previous methods focus on predicting predefined object and relation categories, hence limiting their applications in the open world scenarios. With the rapid development of large multimodal models (LMMs), significant progress has been made in open-set object detection and segmentation, yet open-set relation prediction in PSG remains unexplored. In this paper, we focus on the task of open-set relation prediction integrated with a pretrained open-set panoptic segmentation model to achieve true open-set panoptic scene graph generation (OpenPSG). Our OpenPSG leverages LMMs to achieve open-set relation prediction in an autoregressive manner. We introduce a relation query transformer to efficiently extract visual features of object pairs and estimate the existence of relations between them. The latter can enhance the prediction efficiency by filtering irrelevant pairs. Finally, we design the generation and judgement instructions to perform open-set relation prediction in PSG autoregressively. To our knowledge, we are the first to propose the open-set PSG task. Extensive experiments demonstrate that our method achieves state-of-the-art performance in open-set relation prediction and panoptic scene graph generation. Code is available at \url{https://github.com/franciszzj/OpenPSG}.
- Abstract(参考訳): Panoptic Scene Graph Generation (PSG) は、オブジェクトを分割し、それらの関係を認識し、画像の構造的理解を可能にすることを目的としている。
従来の手法では、事前定義されたオブジェクトと関係カテゴリの予測に重点を置いており、そのため、オープンワールドシナリオでのアプリケーションを制限する。
大規模マルチモーダルモデル(LMM)の急速な発展に伴い、オープンセットオブジェクトの検出とセグメンテーションにおいて大きな進展が見られたが、PSGのオープンセット関係予測は未解明のままである。
本稿では,オープンセット・パノプティック・シーングラフ生成(OpenPSG)を実現するために,事前訓練されたオープンセット・パノプティック・セグメンテーション・モデルと統合されたオープンセット・リレーション・予測の課題に焦点を当てる。
我々のOpenPSGはLMMを活用して自己回帰的なオープンセット関係予測を実現する。
オブジェクトペアの視覚的特徴を効率的に抽出し,それらの関係性の存在を推定する関係クエリ変換器を提案する。
後者は、無関係なペアをフィルタリングすることで予測効率を高めることができる。
最後に,PSGにおけるオープンセット関係予測を自動回帰的に行うために,生成命令と判定命令を設計する。
我々の知る限り、我々はまず、オープンセットPSGタスクを提案する。
広汎な実験により,オープン・セット関係予測とパノプティック・シーングラフ生成における最先端の性能が得られた。
コードは \url{https://github.com/franciszzj/OpenPSG} で入手できる。
関連論文リスト
- Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge [7.28830964611216]
この研究は、関係階層とコモンセンス知識の両方によってシーングラフを生成するための拡張されたアプローチを導入する。
我々は,シーングラフ予測システムから結果を批判するために基礎モデルを活用する,堅牢なコモンセンス検証パイプラインを実装した。
Visual GenomeとOpenImage V6データセットの実験では、既存のシーングラフ生成アルゴリズムのプラグインとプレイの拡張として、提案されたモジュールをシームレスに統合できることが示されている。
論文 参考訳(メタデータ) (2023-11-21T06:03:20Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Relational Prior Knowledge Graphs for Detection and Instance
Segmentation [24.360473253478112]
本稿では,先行値を用いたオブジェクト機能拡張グラフを提案する。
COCOの実験的評価は、リレーショナル先行で拡張されたシーングラフの利用は、オブジェクト検出とインスタンスセグメンテーションの利点をもたらすことを示している。
論文 参考訳(メタデータ) (2023-10-11T15:15:05Z) - Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [54.92476119356985]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。
現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文 参考訳(メタデータ) (2023-07-17T17:58:37Z) - 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop [1.5362025549031049]
Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
本稿では,Global Relation Networkの2段階パラダイムであるGRNetを提案する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-06T09:47:46Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Ordinal Graph Gamma Belief Network for Social Recommender Systems [54.9487910312535]
我々は,階層型ベイズモデルであるオーディナルグラフファクター解析(OGFA)を開発し,ユーザ・イテムとユーザ・ユーザインタラクションを共同でモデル化する。
OGFAは、優れたレコメンデーションパフォーマンスを達成するだけでなく、代表ユーザの好みに応じた解釈可能な潜在因子も抽出する。
我々はOGFAを,マルチ確率層深層確率モデルであるオーディナルグラフガンマ信念ネットワークに拡張する。
論文 参考訳(メタデータ) (2022-09-12T09:19:22Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - Compact Graph Structure Learning via Mutual Information Compression [79.225671302689]
グラフ構造学習(GSL)は、グラフニューラルネットワーク(GNN)のグラフ構造と学習パラメータを最適化する能力に大きな注目を集めている。
我々は、MI圧縮によるコンパクトGSLアーキテクチャ、CoGSLを提案する。
クリーンで攻撃的な条件下で複数のデータセットに対して広範な実験を行い、CoGSLの有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2022-01-14T16:22:33Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。