論文の概要: BGT-Net: Bidirectional GRU Transformer Network for Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2109.05346v1
- Date: Sat, 11 Sep 2021 19:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 08:36:23.895608
- Title: BGT-Net: Bidirectional GRU Transformer Network for Scene Graph
Generation
- Title(参考訳): BGT-Net:シーングラフ生成のための双方向GRUトランスネットワーク
- Authors: Naina Dhingra, Florian Ritter, Andreas Kunz
- Abstract要約: シーングラフ生成(SGG)は、オブジェクトとその関係を識別することを目的としている。
画像のシーングラフ生成のための双方向GRU(BiGRU)トランスフォーマーネットワーク(BGT-Net)を提案する。
このモデルは、BiGRU層を用いたオブジェクト情報を強化するために、新しいオブジェクトオブジェクト通信を実装している。
- 参考スコア(独自算出の注目度): 0.15469452301122172
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scene graphs are nodes and edges consisting of objects and object-object
relationships, respectively. Scene graph generation (SGG) aims to identify the
objects and their relationships. We propose a bidirectional GRU (BiGRU)
transformer network (BGT-Net) for the scene graph generation for images. This
model implements novel object-object communication to enhance the object
information using a BiGRU layer. Thus, the information of all objects in the
image is available for the other objects, which can be leveraged later in the
object prediction step. This object information is used in a transformer
encoder to predict the object class as well as to create object-specific edge
information via the use of another transformer encoder. To handle the dataset
bias induced by the long-tailed relationship distribution, softening with a
log-softmax function and adding a bias adaptation term to regulate the bias for
every relation prediction individually showed to be an effective approach. We
conducted an elaborate study on experiments and ablations using open-source
datasets, i.e., Visual Genome, Open-Images, and Visual Relationship Detection
datasets, demonstrating the effectiveness of the proposed model over state of
the art.
- Abstract(参考訳): シーングラフは、それぞれオブジェクトとオブジェクトの関係からなるノードとエッジである。
シーングラフ生成(SGG)は、オブジェクトとその関係を識別することを目的としている。
画像のシーングラフ生成のための双方向GRU(BiGRU)トランスフォーマーネットワーク(BGT-Net)を提案する。
このモデルは、BiGRU層を用いたオブジェクト情報を強化するために、新しいオブジェクトオブジェクト通信を実装している。
したがって、画像内の全てのオブジェクトの情報は、他のオブジェクトに対して利用可能であり、オブジェクト予測ステップの後半で利用することができる。
このオブジェクト情報は、変換器エンコーダでオブジェクトクラスを予測したり、別の変換器エンコーダを使用してオブジェクト固有のエッジ情報を作成するために使用される。
長期関係分布によって引き起こされるデータセットバイアスに対処し、対数ソフトマックス関数とのソフト化と、個々の関係予測毎にバイアスを調整するバイアス適応項の追加を効果的に行う。
本研究では,オープンソースデータセット,すなわち視覚ゲノム,オープン画像,視覚関係検出データセットを用いた実験とアブレーションに関する精巧な研究を行い,提案モデルの有効性を実証した。
関連論文リスト
- Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Open-Vocabulary Object Detection via Scene Graph Discovery [53.27673119360868]
オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。
OV検出にシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。
論文 参考訳(メタデータ) (2023-07-07T00:46:19Z) - Graph Transformer GANs for Graph-Constrained House Generation [223.739067413952]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
GTGANは、グラフ制約のある住宅生成タスクにおいて、エンドツーエンドで効率的なグラフノード関係を学習する。
論文 参考訳(メタデータ) (2023-03-14T20:35:45Z) - Detecting Objects with Context-Likelihood Graphs and Graph Refinement [45.70356990655389]
本研究の目的は,オブジェクトと関係を別々に学習する既存の手法とは対照的に,オブジェクトの関係分布を共同で学習することである。
本稿では,オブジェクト間関係と初期クラス予測から画像のグラフィカルな表現を生成する新しい手法を提案する。
次に,エネルギーに基づくモデリング手法を用いて接合部を学習し,与えられた画像に対して文脈類似グラフを反復的に改良する。
論文 参考訳(メタデータ) (2022-12-23T15:27:21Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文 参考訳(メタデータ) (2022-01-27T11:53:41Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Relation Transformer Network [25.141472361426818]
本稿では,シーングラフ生成と関係予測のためのトランスフォーメーションを提案する。
我々はトランスのエンコーダ・デコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
我々の関係予測モジュールは学習ノードとエッジ埋め込みから有向関係を分類する。
論文 参考訳(メタデータ) (2020-04-13T20:47:01Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。