論文の概要: Iterative Scene Graph Generation with Generative Transformers
- arxiv url: http://arxiv.org/abs/2211.16636v1
- Date: Wed, 30 Nov 2022 00:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:57:39.353658
- Title: Iterative Scene Graph Generation with Generative Transformers
- Title(参考訳): 生成変換器を用いた反復シーングラフ生成
- Authors: Sanjoy Kundu and Sathyanarayanan N. Aakur
- Abstract要約: シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
- 参考スコア(独自算出の注目度): 6.243995448840211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graphs provide a rich, structured representation of a scene by encoding
the entities (objects) and their spatial relationships in a graphical format.
This representation has proven useful in several tasks, such as question
answering, captioning, and even object detection, to name a few. Current
approaches take a generation-by-classification approach where the scene graph
is generated through labeling of all possible edges between objects in a scene,
which adds computational overhead to the approach. This work introduces a
generative transformer-based approach to generating scene graphs beyond link
prediction. Using two transformer-based components, we first sample a possible
scene graph structure from detected objects and their visual features. We then
perform predicate classification on the sampled edges to generate the final
scene graph. This approach allows us to efficiently generate scene graphs from
images with minimal inference overhead. Extensive experiments on the Visual
Genome dataset demonstrate the efficiency of the proposed approach. Without
bells and whistles, we obtain, on average, 20.7% mean recall (mR@100) across
different settings for scene graph generation (SGG), outperforming
state-of-the-art SGG approaches while offering competitive performance to
unbiased SGG approaches.
- Abstract(参考訳): シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
この表現は質問応答、キャプション、さらにはオブジェクト検出などいくつかのタスクで有用であることが証明されている。
現在のアプローチでは、シーン内のオブジェクト間のすべてのエッジをラベル付けすることで、シーングラフが生成される世代毎のアプローチを採用している。
本稿では,リンク予測を超えたシーングラフ生成のための生成的トランスフォーマティブ手法を提案する。
まず, 検出した物体と視覚的特徴から, 可能なシーングラフ構造をサンプリングする。
次に、サンプルエッジ上で述語分類を行い、最終シーングラフを生成する。
このアプローチにより、最小の推論オーバーヘッドで画像からシーングラフを効率的に生成できる。
視覚ゲノムデータセットに関する広範な実験により,提案手法の有効性が示された。
平均20.7%の平均リコール(mR@100)は,シーングラフ生成(SGG)や最先端のSGGアプローチよりも優れ,バイアスのないSGGアプローチに対して競争性能を提供する。
関連論文リスト
- FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。