論文の概要: Learning to Generate Scene Graph from Natural Language Supervision
- arxiv url: http://arxiv.org/abs/2109.02227v1
- Date: Mon, 6 Sep 2021 03:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:35:09.130271
- Title: Learning to Generate Scene Graph from Natural Language Supervision
- Title(参考訳): 自然言語スーパービジョンからシーングラフを生成する学習
- Authors: Yiwu Zhong, Jing Shi, Jianwei Yang, Chenliang Xu, Yin Li
- Abstract要約: シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
- 参考スコア(独自算出の注目度): 52.18175340725455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from image-text data has demonstrated recent success for many
recognition tasks, yet is currently limited to visual features or individual
visual concepts such as objects. In this paper, we propose one of the first
methods that learn from image-sentence pairs to extract a graphical
representation of localized objects and their relationships within an image,
known as scene graph. To bridge the gap between images and texts, we leverage
an off-the-shelf object detector to identify and localize object instances,
match labels of detected regions to concepts parsed from captions, and thus
create "pseudo" labels for learning scene graph. Further, we design a
Transformer-based model to predict these "pseudo" labels via a masked token
prediction task. Learning from only image-sentence pairs, our model achieves
30% relative gain over a latest method trained with human-annotated unlocalized
scene graphs. Our model also shows strong results for weakly and fully
supervised scene graph generation. In addition, we explore an open-vocabulary
setting for detecting scene graphs, and present the first result for open-set
scene graph generation. Our code is available at
https://github.com/YiwuZhong/SGG_from_NLS.
- Abstract(参考訳): 画像テキストデータからの学習は多くの認識タスクで最近成功したが、現在は視覚機能やオブジェクトのような個々の視覚概念に限定されている。
本稿では,画像と文のペアから学習した最初の手法の1つとして,画像内の局所化オブジェクトとその関係性(シーングラフ)を抽出する手法を提案する。
画像とテキストのギャップを埋めるために,市販のオブジェクト検出器を利用してオブジェクトインスタンスを識別・ローカライズし,検出された領域のラベルをキャプションから解析した概念にマッチさせ,シーングラフを学習するための"pseudo"ラベルを作成する。
さらに,これらの「擬似」ラベルをマスク付きトークン予測タスクにより予測するトランスフォーマーモデルの設計を行う。
画像とシーンのペアのみから学習し,人間にアノテーションを付けないシーングラフで学習した最新の手法に対して,30%の相対利得を達成した。
また, 弱く, 完全に教師付されたシーングラフ生成の強い結果を示す。
さらに,シーングラフ検出のためのオープンボキャブラリー設定を探索し,オープンセットシーングラフ生成のための第1の結果を示す。
私たちのコードはhttps://github.com/YiwuZhong/SGG_from_NLSで利用可能です。
関連論文リスト
- Open-Vocabulary Object Detection via Scene Graph Discovery [53.27673119360868]
オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。
OV検出にシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。
論文 参考訳(メタデータ) (2023-07-07T00:46:19Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Scene Graph Generation for Better Image Captioning? [48.411957217304]
検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。
我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
論文 参考訳(メタデータ) (2021-09-23T14:35:11Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。