論文の概要: Open-Vocabulary Object Detection via Scene Graph Discovery
- arxiv url: http://arxiv.org/abs/2307.03339v1
- Date: Fri, 7 Jul 2023 00:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:36:53.433887
- Title: Open-Vocabulary Object Detection via Scene Graph Discovery
- Title(参考訳): Scene Graph Discoveryによるオープン語彙オブジェクト検出
- Authors: Hengcan Shi, Munawar Hayat, Jianfei Cai
- Abstract要約: オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。
OV検出にシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。
- 参考スコア(独自算出の注目度): 53.27673119360868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, open-vocabulary (OV) object detection has attracted
increasing research attention. Unlike traditional detection, which only
recognizes fixed-category objects, OV detection aims to detect objects in an
open category set. Previous works often leverage vision-language (VL) training
data (e.g., referring grounding data) to recognize OV objects. However, they
only use pairs of nouns and individual objects in VL data, while these data
usually contain much more information, such as scene graphs, which are also
crucial for OV detection. In this paper, we propose a novel Scene-Graph-Based
Discovery Network (SGDN) that exploits scene graph cues for OV detection.
Firstly, a scene-graph-based decoder (SGDecoder) including sparse
scene-graph-guided attention (SSGA) is presented. It captures scene graphs and
leverages them to discover OV objects. Secondly, we propose scene-graph-based
prediction (SGPred), where we build a scene-graph-based offset regression
(SGOR) mechanism to enable mutual enhancement between scene graph extraction
and object localization. Thirdly, we design a cross-modal learning mechanism in
SGPred. It takes scene graphs as bridges to improve the consistency between
cross-modal embeddings for OV object classification. Experiments on COCO and
LVIS demonstrate the effectiveness of our approach. Moreover, we show the
ability of our model for OV scene graph detection, while previous OV scene
graph generation methods cannot tackle this task.
- Abstract(参考訳): 近年、オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。
固定カテゴリオブジェクトのみを認識する従来の検出とは異なり、OV検出はオープンカテゴリセット内のオブジェクトを検出することを目的としている。
以前の研究はしばしば、OVオブジェクトを認識するために視覚言語(VL)トレーニングデータ(例えば、接地データを参照)を利用する。
しかしながら、VLデータには名詞と個々のオブジェクトのペアしか使用せず、これらのデータは通常、OV検出にも不可欠であるシーングラフのような、はるかに多くの情報を含んでいる。
本稿では,OV検出のためのシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。
まず、スパースシーングラフ誘導注意(SSGA)を含むシーングラフベースのデコーダ(SGDecoder)を示す。
シーングラフをキャプチャし、それらを利用してOVオブジェクトを発見する。
次に,シーングラフに基づくオフセット回帰(sgor)機構を構築し,シーングラフ抽出とオブジェクトローカライゼーションの相互拡張を可能にするシーングラフに基づく予測(sgpred)を提案する。
第3に,SGPredにおけるクロスモーダル学習機構を設計する。
シーングラフをブリッジとして、OVオブジェクト分類のためのクロスモーダル埋め込み間の整合性を改善する。
COCOとLVISの実験は、我々のアプローチの有効性を実証している。
さらに,従来のOVシーングラフ生成手法ではこの問題に対処できないが,OVシーングラフ検出のためのモデルの有効性を示す。
関連論文リスト
- Modeling Dynamic Environments with Scene Graph Memory [46.587536843634055]
本稿では,部分的に観測可能な動的グラフ上でのリンク予測という,新しいタイプのリンク予測問題を提案する。
私たちのグラフは、部屋とオブジェクトがノードであり、それらの関係がエッジにエンコードされるシーンの表現です。
エージェントの蓄積した観測結果をキャプチャする新しい状態表現 -- SGM (Scene Graph Memory) を提案する。
家庭で一般的に見られるセマンティックなパターンに従って,多様な動的グラフを生成する新しいベンチマークであるDynamic House Simulatorで,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T17:39:38Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Structural Temporal Graph Neural Networks for Anomaly Detection in
Dynamic Graphs [54.13919050090926]
本稿では,動的グラフの異常エッジを検出するために,エンドツーエンドの時間構造グラフニューラルネットワークモデルを提案する。
特に,まずターゲットエッジを中心にした$h$ホップ囲むサブグラフを抽出し,各ノードの役割を識別するノードラベル機能を提案する。
抽出した特徴に基づき,GRU(Gated Recurrent Unit)を用いて,異常検出のための時間的情報を取得する。
論文 参考訳(メタデータ) (2020-05-15T09:17:08Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。