論文の概要: SGTR: End-to-end Scene Graph Generation with Transformer
- arxiv url: http://arxiv.org/abs/2112.12970v1
- Date: Fri, 24 Dec 2021 07:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 15:32:20.499642
- Title: SGTR: End-to-end Scene Graph Generation with Transformer
- Title(参考訳): SGTR: Transformer を用いたエンドツーエンドのシーングラフ生成
- Authors: Rongjie Li, Songyang Zhang, Xuming He
- Abstract要約: シーングラフ生成(SGG)は、複雑な構成特性のため、難しい視覚的理解課題である。
本稿では、上記の問題に対処する新しいSGG法を提案し、この課題を二部グラフ構築問題として定式化する。
- 参考スコア(独自算出の注目度): 41.606381084893194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation (SGG) remains a challenging visual understanding task
due to its complex compositional property. Most previous works adopt a
bottom-up two-stage or a point-based one-stage approach, which often suffers
from overhead time complexity or sub-optimal design assumption. In this work,
we propose a novel SGG method to address the aforementioned issues, which
formulates the task as a bipartite graph construction problem. To solve the
problem, we develop a transformer-based end-to-end framework that first
generates the entity and predicate proposal set, followed by inferring directed
edges to form the relation triplets. In particular, we develop a new
entity-aware predicate representation based on a structural predicate generator
to leverage the compositional property of relationships. Moreover, we design a
graph assembling module to infer the connectivity of the bipartite scene graph
based on our entity-aware structure, enabling us to generate the scene graph in
an end-to-end manner. Extensive experimental results show that our design is
able to achieve the state-of-the-art or comparable performance on two
challenging benchmarks, surpassing most of the existing approaches and enjoying
higher efficiency in inference. We hope our model can serve as a strong
baseline for the Transformer-based scene graph generation.
- Abstract(参考訳): シーングラフ生成(SGG)は、複雑な構成特性のため、難しい視覚的理解課題である。
これまでのほとんどの作業では、ボトムアップの2段階あるいはポイントベースの1段階アプローチを採用していました。
本研究では、上記の問題に対処する新しいSGG法を提案し、この課題を二部グラフ構築問題として定式化する。
そこで我々は,まずエンティティと述語の提案集合を生成し,その後に有向エッジを推論して関係三重項を形成するトランスフォーマティブベースのエンドツーエンドフレームワークを開発した。
特に,関係の構成的性質を活用するために,構造的述語生成器に基づく新しいエンティティ対応述語表現を開発する。
さらに,エンティティ認識構造に基づいて,二部的なシーングラフの接続を推測するグラフ合成モジュールを設計し,シーングラフをエンドツーエンドで生成できるようにした。
広範な実験結果から,我々の設計は,既存の手法のほとんどを上回って,高い推論効率を享受し,2つの難解なベンチマークにおいて,最先端あるいは同等のパフォーマンスを達成できることがわかった。
当社のモデルがTransformerベースのシーングラフ生成の強力なベースラインになることを期待しています。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - SGTR+: End-to-end Scene Graph Generation with Transformer [42.396971149458324]
シーングラフ生成(SGG)は、その構成特性のため、困難な視覚的理解課題である。
これまでのほとんどの作業ではボトムアップ、2段階またはポイントベースの1段階のアプローチを採用していた。
本稿では、上記の問題に対処する新しいSGG法を提案し、そのタスクを二部グラフ構築問題として定式化する。
論文 参考訳(メタデータ) (2024-01-23T15:18:20Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Deformable Graph Transformer [31.254872949603982]
本稿では動的にサンプリングされたキーと値のペアでスパースアテンションを行うDeformable Graph Transformer (DGT)を提案する。
実験により、我々の新しいグラフトランスフォーマーは既存のトランスフォーマーベースモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-06-29T00:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。