論文の概要: Iterative Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2207.13440v1
- Date: Wed, 27 Jul 2022 10:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:34:01.254059
- Title: Iterative Scene Graph Generation
- Title(参考訳): 反復的なシーングラフ生成
- Authors: Siddhesh Khandelwal and Leonid Sigal
- Abstract要約: シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
- 参考スコア(独自算出の注目度): 55.893695946885174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of scene graph generation entails identifying object entities and
their corresponding interaction predicates in a given image (or video). Due to
the combinatorially large solution space, existing approaches to scene graph
generation assume certain factorization of the joint distribution to make the
estimation feasible (e.g., assuming that objects are conditionally independent
of predicate predictions). However, this fixed factorization is not ideal under
all scenarios (e.g., for images where an object entailed in interaction is
small and not discernible on its own). In this work, we propose a novel
framework for scene graph generation that addresses this limitation, as well as
introduces dynamic conditioning on the image, using message passing in a Markov
Random Field. This is implemented as an iterative refinement procedure wherein
each modification is conditioned on the graph generated in the previous
iteration. This conditioning across refinement steps allows joint reasoning
over entities and relations. This framework is realized via a novel and
end-to-end trainable transformer-based architecture. In addition, the proposed
framework can improve existing approach performance. Through extensive
experiments on Visual Genome and Action Genome benchmark datasets we show
improved performance on the scene graph generation.
- Abstract(参考訳): シーングラフ生成のタスクは、オブジェクトエンティティを識別し、対応するインタラクションが所定の画像(またはビデオ)に述示される。
組合せ的に大きい解空間のため、シーングラフ生成への既存のアプローチでは、結合分布の特定の因子化を仮定して推定が実現可能である(例えば、対象が述語予測から条件的に独立であると仮定する)。
しかし、この固定分解は全てのシナリオにおいて理想的ではない(例えば、相互作用に関連する対象が小さく、それ自身では識別できないような画像)。
本研究では,この制限に対処するシーングラフ生成のための新しいフレームワークを提案するとともに,マルコフ確率場におけるメッセージパッシングを用いた画像上の動的条件付けを提案する。
これは、前回のイテレーションで生成されたグラフに各修正を条件付けする反復的精錬手順として実装される。
このリファインメントステップ間の条件付けは、エンティティとリレーションシップに対する共同推論を可能にする。
このフレームワークは、新規でエンドツーエンドのトレーニング可能なトランスフォーマーベースのアーキテクチャによって実現される。
さらに、提案フレームワークは既存のアプローチ性能を改善することができる。
視覚ゲノムおよび行動ゲノムベンチマークデータセットの広範な実験を通じて,シーングラフ生成の性能向上を示す。
関連論文リスト
- Self-Supervised Relation Alignment for Scene Graph Generation [44.3983804479146]
シーングラフ生成性能を改善するために,自己教師付きリレーショナルアライメントの正規化を導入する。
提案されたアライメントは一般的なもので、既存のシーングラフ生成フレームワークと組み合わせることができる。
本稿では,この自己教師付きリレーショナルアライメントと2つのシーングラフ生成アーキテクチャの有効性について述べる。
論文 参考訳(メタデータ) (2023-02-02T20:34:13Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - SGTR: End-to-end Scene Graph Generation with Transformer [41.606381084893194]
シーングラフ生成(SGG)は、複雑な構成特性のため、難しい視覚的理解課題である。
本稿では、上記の問題に対処する新しいSGG法を提案し、この課題を二部グラフ構築問題として定式化する。
論文 参考訳(メタデータ) (2021-12-24T07:10:18Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。