論文の概要: Scene Graph Generation for Better Image Captioning?
- arxiv url: http://arxiv.org/abs/2109.11398v1
- Date: Thu, 23 Sep 2021 14:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 17:56:27.397776
- Title: Scene Graph Generation for Better Image Captioning?
- Title(参考訳): 画像キャプション改善のためのシーングラフ生成
- Authors: Maximilian Mozes, Martin Schmitt, Vladimir Golkov, Hinrich Sch\"utze,
Daniel Cremers
- Abstract要約: 検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。
我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
- 参考スコア(独自算出の注目度): 48.411957217304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the incorporation of visual relationships into the task of
supervised image caption generation by proposing a model that leverages
detected objects and auto-generated visual relationships to describe images in
natural language. To do so, we first generate a scene graph from raw image
pixels by identifying individual objects and visual relationships between them.
This scene graph then serves as input to our graph-to-text model, which
generates the final caption. In contrast to previous approaches, our model thus
explicitly models the detection of objects and visual relationships in the
image. For our experiments we construct a new dataset from the intersection of
Visual Genome and MS COCO, consisting of images with both a corresponding gold
scene graph and human-authored caption. Our results show that our methods
outperform existing state-of-the-art end-to-end models that generate image
descriptions directly from raw input pixels when compared in terms of the BLEU
and METEOR evaluation metrics.
- Abstract(参考訳): 自然言語で画像を記述するために,検出された物体と自動生成された視覚関係を利用したモデルを提案することにより,視覚関係を教師あり画像キャプション生成タスクに組み込む。
そこで我々はまず,個々の物体を識別し,それらの画像間の視覚的関係からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストモデルへの入力として機能します。
従来の手法とは対照的に,本モデルは画像中の物体の検出と視覚的関係を明示的にモデル化する。
実験では,視覚ゲノムとMS COCOの交差点から新たなデータセットを構築し,対応するゴールドシーングラフと人間によるキャプションの両方で画像を構成する。
提案手法は,BLEU および METEOR 評価指標と比較した場合,原画像から画像記述を直接生成する既存の最先端モデルよりも優れていることを示す。
関連論文リスト
- Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Image Scene Graph Generation (SGG) Benchmark [58.33119409657256]
画像シーングラフ生成(オブジェクト、関係検出)への関心が高まっている。
優れたベンチマークが欠如しているため、異なるシーングラフ生成モデルの報告結果と直接比較することができない。
我々は,マスマルクン・ベンチマークといくつかの人気モデルに基づく,待望のシーングラフ生成ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-07-27T05:10:09Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。