論文の概要: Location-Free Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.10944v1
- Date: Mon, 20 Mar 2023 08:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:11:29.396017
- Title: Location-Free Scene Graph Generation
- Title(参考訳): ロケーションフリーシーングラフ生成
- Authors: Ege \"Ozsoy, Felix Holm, Tobias Czempiel, Nassir Navab, Benjamin Busam
- Abstract要約: シーングラフ生成(SGG)は、困難な視覚的理解課題である。
シーンにおけるエンティティの検出と、それら間の関係を結合する。
ローカライズラベルの必要性は、アノテーションのコストを大幅に増加させ、より多くのシーングラフデータセットの作成を妨げます。
位置自由なシーングラフ生成を提案することにより,境界ボックスラベルへのシーングラフの依存を断ち切ることを提案する。
- 参考スコア(独自算出の注目度): 43.68679886516574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) is a challenging visual understanding task. It
combines the detection of entities and relationships between them in a scene.
Both previous works and existing evaluation metrics rely on bounding box
labels, even though many downstream scene graph applications do not need
location information. The need for localization labels significantly increases
the annotation cost and hampers the creation of more and larger scene graph
datasets. We suggest breaking the dependency of scene graphs on bounding box
labels by proposing location-free scene graph generation (LF-SGG). This new
task aims at predicting instances of entities, as well as their relationships,
without spatial localization. To objectively evaluate the task, the predicted
and ground truth scene graphs need to be compared. We solve this NP-hard
problem through an efficient algorithm using branching. Additionally, we design
the first LF-SGG method, Pix2SG, using autoregressive sequence modeling. Our
proposed method is evaluated on Visual Genome and 4D-OR. Although using
significantly fewer labels during training, we achieve 74.12\% of the
location-supervised SOTA performance on Visual Genome and even outperform the
best method on 4D-OR.
- Abstract(参考訳): シーングラフ生成(SGG)は、困難な視覚的理解課題である。
シーンにおけるエンティティの検出と、それら間の関係を結合する。
以前の作業と既存の評価指標は、多くの下流のシーングラフアプリケーションでは位置情報を必要としないが、バウンディングボックスラベルに依存している。
ローカライズラベルの必要性はアノテーションコストを大幅に増加させ、より多くのシーングラフデータセットの作成を妨げている。
位置自由なシーングラフ生成(LF-SGG)を提案することにより,境界ボックスラベルへのシーングラフの依存を断ち切ることを提案する。
このタスクは,空間的局所化を伴わずに,エンティティのインスタンスと関係性を予測することを目的としている。
タスクを客観的に評価するには、予測された真実と地上の真実のシーングラフを比較する必要がある。
このnp-hard問題を分岐法を用いて効率的なアルゴリズムで解く。
さらに,自己回帰シーケンスモデルを用いて,最初のLF-SGG法であるPix2SGを設計する。
提案手法は視覚ゲノムと4D-ORを用いて評価する。
トレーニング中にラベルが大幅に少ないが、位置教師付きSOTAパフォーマンスの74.12\%をVisual Genomeで達成し、4D-ORで最高の方法よりも優れていた。
関連論文リスト
- Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - SIGMA: Semantic-complete Graph Matching for Domain Adaptive Object
Detection [26.0630601028093]
ドメイン適応オブジェクト検出(DAOD)は、ラベル付きドメインを利用して、アノテーションのない新しいドメインに一般化されたオブジェクト検出器を学ぶ。
クロスドメインプロトタイプ(クラスセンター)の縮小によるクラス条件分布の調整
本稿では,不一致のセマンティックスを補完し,グラフマッチングによる適応を再構築する,幻覚Dのための新しいSemantIc完全グラフマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-12T10:14:17Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Learnable Graph Matching: Incorporating Graph Partitioning with Deep
Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。
既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。
そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:58:45Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。