論文の概要: RelTR: Relation Transformer for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2201.11460v1
- Date: Thu, 27 Jan 2022 11:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:36:41.645379
- Title: RelTR: Relation Transformer for Scene Graph Generation
- Title(参考訳): RelTR:シーングラフ生成のためのリレーショナルトランス
- Authors: Yuren Cong, Michael Ying Yang, Bodo Rosenhahn
- Abstract要約: エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
- 参考スコア(独自算出の注目度): 34.1193503312965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different objects in the same scene are more or less related to each other,
but only a limited number of these relationships are noteworthy. Inspired by
DETR, which excels in object detection, we view scene graph generation as a set
prediction problem and propose an end-to-end scene graph generation model RelTR
which has an encoder-decoder architecture. The encoder reasons about the visual
feature context while the decoder infers a fixed-size set of triplets
subject-predicate-object using different types of attention mechanisms with
coupled subject and object queries. We design a set prediction loss performing
the matching between the ground truth and predicted triplets for the end-to-end
training. In contrast to most existing scene graph generation methods, RelTR is
a one-stage method that predicts a set of relationships directly only using
visual appearance without combining entities and labeling all possible
predicates. Extensive experiments on the Visual Genome and Open Images V6
datasets demonstrate the superior performance and fast inference of our model.
- Abstract(参考訳): 同じシーンの異なるオブジェクトは、ほとんど、あるいはそれと関係があるが、これらの関係の限られた数だけが注目に値する。
オブジェクト検出に優れるDETRに着想を得て,シーングラフ生成をセット予測問題とみなし,エンコーダ・デコーダアーキテクチャを持つエンドツーエンドのシーングラフ生成モデルRelTRを提案する。
エンコーダは視覚的特徴コンテキストを理由とし、デコーダは、異なるタイプの注意機構と結合した被写体とオブジェクトクエリを用いて、固定サイズの三重項述語オブジェクトのセットを推論する。
提案手法は, 終末訓練において, 地上の真理と予測三重項のマッチングを行う集合予測損失を設計する。
既存のシーングラフ生成手法とは対照的に、RelTRは、エンティティを結合したり、可能なすべての述語をラベル付けすることなく、視覚的な外観だけで直接関係を予測できるワンステージ手法である。
視覚ゲノムとオープン画像v6データセットに関する広範な実験は、このモデルの優れた性能と高速な推論を示している。
関連論文リスト
- Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge [7.28830964611216]
この研究は、関係階層とコモンセンス知識の両方によってシーングラフを生成するための拡張されたアプローチを導入する。
我々は,シーングラフ予測システムから結果を批判するために基礎モデルを活用する,堅牢なコモンセンス検証パイプラインを実装した。
Visual GenomeとOpenImage V6データセットの実験では、既存のシーングラフ生成アルゴリズムのプラグインとプレイの拡張として、提案されたモジュールをシームレスに統合できることが示されている。
論文 参考訳(メタデータ) (2023-11-21T06:03:20Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Self-Supervised Relation Alignment for Scene Graph Generation [44.3983804479146]
シーングラフ生成性能を改善するために,自己教師付きリレーショナルアライメントの正規化を導入する。
提案されたアライメントは一般的なもので、既存のシーングラフ生成フレームワークと組み合わせることができる。
本稿では,この自己教師付きリレーショナルアライメントと2つのシーングラフ生成アーキテクチャの有効性について述べる。
論文 参考訳(メタデータ) (2023-02-02T20:34:13Z) - SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for
Scene Graph Generation [12.977857322594206]
一段階のシーングラフ生成では、スパース提案セットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。
モデルにフレキシブルな自己推論機能を加えるために,視覚言語知識を用いた自己推論変換器(SrTR)を提案する。
大規模な事前学習型画像テキスト基礎モデルに触発され、視覚言語学的な事前知識が導入された。
論文 参考訳(メタデータ) (2022-12-19T09:47:27Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。