論文の概要: Location-Free Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.10944v2
- Date: Tue, 29 Oct 2024 08:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:07.921734
- Title: Location-Free Scene Graph Generation
- Title(参考訳): 位置自由シーングラフ生成
- Authors: Ege Özsoy, Felix Holm, Mahdi Saleh, Tobias Czempiel, Chantal Pellegrini, Nassir Navab, Benjamin Busam,
- Abstract要約: シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
- 参考スコア(独自算出の注目度): 45.366540803729386
- License:
- Abstract: Scene Graph Generation (SGG) is a visual understanding task, aiming to describe a scene as a graph of entities and their relationships with each other. Existing works rely on location labels in form of bounding boxes or segmentation masks, increasing annotation costs and limiting dataset expansion. Recognizing that many applications do not require location data, we break this dependency and introduce location-free scene graph generation (LF-SGG). This new task aims at predicting instances of entities, as well as their relationships, without the explicit calculation of their spatial localization. To objectively evaluate the task, the predicted and ground truth scene graphs need to be compared. We solve this NP-hard problem through an efficient branching algorithm. Additionally, we design the first LF-SGG method, Pix2SG, using autoregressive sequence modeling. We demonstrate the effectiveness of our method on three scene graph generation datasets as well as two downstream tasks, image retrieval and visual question answering, and show that our approach is competitive to existing methods while not relying on location cues.
- Abstract(参考訳): シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
多くのアプリケーションが位置データを必要としないことを認識して、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入します。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
タスクを客観的に評価するには、予測された真実と地上の真実のシーングラフを比較する必要がある。
効率的な分岐アルゴリズムを用いて,このNP-hard問題を解く。
さらに,自己回帰シーケンスモデルを用いて,最初のLF-SGG法であるPix2SGを設計する。
提案手法は,3つのシーングラフ生成データセットと2つの下流タスク,画像検索と視覚的質問応答に対して有効であることを示す。
関連論文リスト
- Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。