論文の概要: Relation Transformer Network
- arxiv url: http://arxiv.org/abs/2004.06193v2
- Date: Tue, 20 Jul 2021 21:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:19:55.670846
- Title: Relation Transformer Network
- Title(参考訳): 関連トランスフォーマネットワーク
- Authors: Rajat Koner, Suprosanna Shit and Volker Tresp
- Abstract要約: 本稿では,シーングラフ生成と関係予測のためのトランスフォーメーションを提案する。
我々はトランスのエンコーダ・デコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
我々の関係予測モジュールは学習ノードとエッジ埋め込みから有向関係を分類する。
- 参考スコア(独自算出の注目度): 25.141472361426818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extraction of a scene graph with objects as nodes and mutual
relationships as edges is the basis for a deep understanding of image content.
Despite recent advances, such as message passing and joint classification, the
detection of visual relationships remains a challenging task due to sub-optimal
exploration of the mutual interaction among the visual objects. In this work,
we propose a novel transformer formulation for scene graph generation and
relation prediction. We leverage the encoder-decoder architecture of the
transformer for rich feature embedding of nodes and edges. Specifically, we
model the node-to-node interaction with the self-attention of the transformer
encoder and the edge-to-node interaction with the cross-attention of the
transformer decoder. Further, we introduce a novel positional embedding
suitable to handle edges in the decoder. Finally, our relation prediction
module classifies the directed relation from the learned node and edge
embedding. We name this architecture as Relation Transformer Network (RTN). On
the Visual Genome and GQA dataset, we have achieved an overall mean of 4.85%
and 3.1% point improvement in comparison with state-of-the-art methods. Our
experiments show that Relation Transformer can efficiently model context across
various datasets with small, medium, and large-scale relation classification.
- Abstract(参考訳): 対象をノードとするシーングラフの抽出と、エッジとしての相互関係は、画像コンテンツの深い理解の基礎となる。
メッセージパッシングや共同分類といった最近の進歩にもかかわらず、視覚的関係の検出は、視覚的対象間の相互相互作用の最適下探索によって難しい課題である。
本研究では,シーングラフ生成と関係予測のためのトランスフォーマレーションを提案する。
トランスのエンコーダデコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
具体的には、変換器エンコーダの自己アテンションによるノード間相互作用と変換器デコーダの相互アテンションによるエッジ間相互作用をモデル化する。
さらに,デコーダのエッジを扱うのに適した位置埋め込み方式を提案する。
最後に、我々の関係予測モジュールは、学習ノードとエッジ埋め込みから有向関係を分類する。
このアーキテクチャをリレーショナルトランスフォーマーネットワーク(RTN)と呼ぶ。
Visual GenomeとGQAデータセットでは、最先端の手法と比較して全体の平均4.85%と3.1%の改善を達成した。
実験により,リレーショナルトランスフォーマーは,小・中・大規模関係分類を用いて,様々なデータセットのコンテキストを効率的にモデル化できることがわかった。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Graph as Point Set [31.448841287258116]
本稿では,相互接続ノードを独立点の集合に変換するグラフ・ツー・セット変換法を提案する。
これにより、セットエンコーダを使用してグラフから学習することが可能になり、グラフニューラルネットワークの設計空間が大幅に拡張される。
提案手法の有効性を示すために,グラフから変換された点集合を入力として受け入れる変換器アーキテクチャであるPoint Set Transformer (PST)を導入する。
論文 参考訳(メタデータ) (2024-05-05T02:29:41Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - BGT-Net: Bidirectional GRU Transformer Network for Scene Graph
Generation [0.15469452301122172]
シーングラフ生成(SGG)は、オブジェクトとその関係を識別することを目的としている。
画像のシーングラフ生成のための双方向GRU(BiGRU)トランスフォーマーネットワーク(BGT-Net)を提案する。
このモデルは、BiGRU層を用いたオブジェクト情報を強化するために、新しいオブジェクトオブジェクト通信を実装している。
論文 参考訳(メタデータ) (2021-09-11T19:14:40Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。