論文の概要: Fully Convolutional Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2103.16083v1
- Date: Tue, 30 Mar 2021 05:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:58:42.781797
- Title: Fully Convolutional Scene Graph Generation
- Title(参考訳): 完全畳み込みシーングラフ生成
- Authors: Hengyue Liu, Ning Yan, Masood S. Mortazavi, Bir Bhanu
- Abstract要約: 本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
- 参考スコア(独自算出の注目度): 30.194961716870186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a fully convolutional scene graph generation (FCSGG)
model that detects objects and relations simultaneously. Most of the scene
graph generation frameworks use a pre-trained two-stage object detector, like
Faster R-CNN, and build scene graphs using bounding box features. Such pipeline
usually has a large number of parameters and low inference speed. Unlike these
approaches, FCSGG is a conceptually elegant and efficient bottom-up approach
that encodes objects as bounding box center points, and relationships as 2D
vector fields which are named as Relation Affinity Fields (RAFs). RAFs encode
both semantic and spatial features, and explicitly represent the relationship
between a pair of objects by the integral on a sub-region that points from
subject to object. FCSGG only utilizes visual features and still generates
strong results for scene graph generation. Comprehensive experiments on the
Visual Genome dataset demonstrate the efficacy, efficiency, and
generalizability of the proposed method. FCSGG achieves highly competitive
results on recall and zero-shot recall with significantly reduced inference
time.
- Abstract(参考訳): 本稿では、オブジェクトと関係を同時に検出する完全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
シーングラフ生成フレームワークのほとんどは、Faster R-CNNのようなトレーニング済みの2段階オブジェクト検出器と、バウンディングボックス機能を使用したビルドシーングラフを使用している。
このようなパイプラインは通常、多数のパラメータと低い推論速度を持つ。
これらのアプローチとは異なり、FCSGGは概念的にエレガントで効率的なボトムアップアプローチであり、オブジェクトを境界の中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける。
rafは意味的特徴と空間的特徴の両方をエンコードし、対象から対象へ向ける部分領域上の積分によって、対象の対の関係を明示的に表現する。
FCSGGは視覚的特徴のみを利用し、シーングラフ生成の強力な結果を生成する。
Visual Genome データセットの総合的な実験により,提案手法の有効性,有効性,一般化性を実証した。
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
関連論文リスト
- AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation [40.149652254414185]
本稿では,航空画像都市景観グラフ生成(AUG)データセットを構築し,公開する。
AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。
複雑な都市景観において局地的な状況が過大評価されるのを避けるため,本稿では,新たな局地性保存グラフ畳み込みネットワーク(LPG)を提案する。
論文 参考訳(メタデータ) (2024-04-11T14:29:30Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - HL-Net: Heterophily Learning Network for Scene Graph Generation [90.2766568914452]
本稿では,シーングラフにおけるオブジェクト/リレーショナル間のホモフィリとヘテロフィリを探索する,新しいヘテロフィリズ学習ネットワーク(HL-Net)を提案する。
HL-Netは、適応的な再重み付け変換モジュールで、異なる層からの情報を適応的に統合し、オブジェクトのヘテロフィリとホモフィリの両方を利用する。
我々は、ビジュアルゲノム(VG)とオープンイメージ(OI)の2つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-03T06:00:29Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。