論文の概要: Scene Graph Modification as Incremental Structure Expanding
- arxiv url: http://arxiv.org/abs/2209.09093v1
- Date: Thu, 15 Sep 2022 16:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:57:59.514961
- Title: Scene Graph Modification as Incremental Structure Expanding
- Title(参考訳): インクリメンタル構造拡大のためのシーングラフ修正
- Authors: Xuming Hu, Zhijiang Guo, Yu Fu, Lijie Wen, Philip S. Yu
- Abstract要約: 本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
- 参考スコア(独自算出の注目度): 61.84291817776118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A scene graph is a semantic representation that expresses the objects,
attributes, and relationships between objects in a scene. Scene graphs play an
important role in many cross modality tasks, as they are able to capture the
interactions between images and texts. In this paper, we focus on scene graph
modification (SGM), where the system is required to learn how to update an
existing scene graph based on a natural language query. Unlike previous
approaches that rebuilt the entire scene graph, we frame SGM as a graph
expansion task by introducing the incremental structure expanding (ISE). ISE
constructs the target graph by incrementally expanding the source graph without
changing the unmodified structure. Based on ISE, we further propose a model
that iterates between nodes prediction and edges prediction, inferring more
accurate and harmonious expansion decisions progressively. In addition, we
construct a challenging dataset that contains more complicated queries and
larger scene graphs than existing datasets. Experiments on four benchmarks
demonstrate the effectiveness of our approach, which surpasses the previous
state-of-the-art model by large margins.
- Abstract(参考訳): シーングラフは、シーン内のオブジェクト、属性、およびオブジェクト間の関係を表現する意味表現である。
シーングラフは、画像とテキスト間の相互作用をキャプチャできるため、多くの横断的なタスクにおいて重要な役割を果たす。
本稿では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
シーングラフ全体を再構築する従来のアプローチとは異なり、SGMはインクリメンタル構造拡張(ISE)を導入してグラフ拡張タスクとして構成する。
ISEは、修正されていない構造を変更することなく、ソースグラフを漸進的に拡張することでターゲットグラフを構築する。
iseに基づいて,ノード予測とエッジ予測を反復し,より正確かつ調和的な拡張決定を段階的に推論するモデルを提案する。
さらに、既存のデータセットよりも複雑なクエリと大きなシーングラフを含む挑戦的なデータセットを構築する。
4つのベンチマークを用いた実験により,従来の最先端モデルを大きく上回る手法の有効性が示された。
関連論文リスト
- Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge [7.28830964611216]
この研究は、関係階層とコモンセンス知識の両方によってシーングラフを生成するための拡張されたアプローチを導入する。
我々は,シーングラフ予測システムから結果を批判するために基礎モデルを活用する,堅牢なコモンセンス検証パイプラインを実装した。
Visual GenomeとOpenImage V6データセットの実験では、既存のシーングラフ生成アルゴリズムのプラグインとプレイの拡張として、提案されたモジュールをシームレスに統合できることが示されている。
論文 参考訳(メタデータ) (2023-11-21T06:03:20Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - GEMS: Scene Expansion using Generative Models of Graphs [3.5998698847215165]
本稿では,その表現,シーングラフに着目し,新たなシーン拡張タスクを提案する。
まず、まず新しいノードを予測し、次にグラフ内の新しく予測されたノードと以前のノードの関係を予測します。
我々は、拡張されたシーングラフを評価するために、Visual GenomeとVRDデータセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2022-07-08T07:41:28Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。