論文の概要: SGTR+: End-to-end Scene Graph Generation with Transformer
- arxiv url: http://arxiv.org/abs/2401.12835v1
- Date: Tue, 23 Jan 2024 15:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:20:43.885501
- Title: SGTR+: End-to-end Scene Graph Generation with Transformer
- Title(参考訳): SGTR+: Transformer を用いたエンドツーエンドのシーングラフ生成
- Authors: Rongjie Li, Songyang Zhang, Xuming He
- Abstract要約: シーングラフ生成(SGG)は、その構成特性のため、困難な視覚的理解課題である。
これまでのほとんどの作業ではボトムアップ、2段階またはポイントベースの1段階のアプローチを採用していた。
本稿では、上記の問題に対処する新しいSGG法を提案し、そのタスクを二部グラフ構築問題として定式化する。
- 参考スコア(独自算出の注目度): 42.396971149458324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation (SGG) remains a challenging visual understanding task
due to its compositional property. Most previous works adopt a bottom-up,
two-stage or point-based, one-stage approach, which often suffers from high
time complexity or suboptimal designs. In this work, we propose a novel SGG
method to address the aforementioned issues, formulating the task as a
bipartite graph construction problem. To address the issues above, we create a
transformer-based end-to-end framework to generate the entity and entity-aware
predicate proposal set, and infer directed edges to form relation triplets.
Moreover, we design a graph assembling module to infer the connectivity of the
bipartite scene graph based on our entity-aware structure, enabling us to
generate the scene graph in an end-to-end manner. Based on bipartite graph
assembling paradigm, we further propose a new technical design to address the
efficacy of entity-aware modeling and optimization stability of graph
assembling. Equipped with the enhanced entity-aware design, our method achieves
optimal performance and time-complexity. Extensive experimental results show
that our design is able to achieve the state-of-the-art or comparable
performance on three challenging benchmarks, surpassing most of the existing
approaches and enjoying higher efficiency in inference. Code is available:
https://github.com/Scarecrow0/SGTR
- Abstract(参考訳): シーングラフ生成(SGG)は、その構成特性のため、困難な視覚的理解課題である。
これまでのほとんどの作業ではボトムアップ、2段階またはポイントベースの1段階のアプローチを採用していた。
本稿では,上記の問題に対処するための新しいsgg法を提案し,タスクを2部グラフ構築問題として定式化する。
上記の問題に対処するために、エンティティとエンティティを認識した述語プロポーザルセットを生成するトランスフォーマティブベースのエンドツーエンドフレームワークを作成し、有向エッジを推論して関係三重項を形成する。
さらに,エンティティ認識構造に基づいて,二部的なシーングラフの接続を推測するグラフ合成モジュールを設計し,シーングラフをエンドツーエンドで生成できるようにした。
さらに,2成分グラフ合成パラダイムに基づき,エンティティ認識モデリングの有効性とグラフ組み立ての最適化安定性に対処した新しい技術設計を提案する。
改良されたエンティティ・アウェア・デザインにより,最適性能と時間複雑度を実現する。
広範な実験結果から,我々の設計は,3つの難解なベンチマークで最先端あるいは同等のパフォーマンスを達成でき,既存の手法の大部分を上回って,推論の効率を向上できることがわかった。
コードは https://github.com/Scarecrow0/SGTR
関連論文リスト
- VectorGraphNET: Graph Attention Networks for Accurate Segmentation of Complex Technical Drawings [0.40964539027092917]
本稿では,PDF形式での技術図面からベクトルデータを抽出し,解析する手法を提案する。
提案手法では,PDFファイルをSVGフォーマットに変換し,機能豊富なグラフ表現を生成する。
次に、階層的なラベル定義を持つグラフアテンション変換器を適用し、正確な線レベルセグメンテーションを実現する。
論文 参考訳(メタデータ) (2024-10-02T08:53:20Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Explore Contextual Information for 3D Scene Graph Generation [43.66442227874461]
3次元シーングラフ生成(SGG)はコンピュータビジョンに大きな関心を寄せている。
本稿では,3次元SGGタスクのコンテキスト情報を完全に探索するフレームワークを提案する。
提案手法は,従来の3DSSGデータセットの手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-12T14:26:17Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - SGTR: End-to-end Scene Graph Generation with Transformer [41.606381084893194]
シーングラフ生成(SGG)は、複雑な構成特性のため、難しい視覚的理解課題である。
本稿では、上記の問題に対処する新しいSGG法を提案し、この課題を二部グラフ構築問題として定式化する。
論文 参考訳(メタデータ) (2021-12-24T07:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。