論文の概要: SG2Caps: Revisiting Scene Graphs for Image Captioning
- arxiv url: http://arxiv.org/abs/2102.04990v1
- Date: Tue, 9 Feb 2021 18:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:18:32.215862
- Title: SG2Caps: Revisiting Scene Graphs for Image Captioning
- Title(参考訳): SG2Caps:イメージキャプションのためのシーングラフを再訪
- Authors: Subarna Tripathi and Kien Nguyen and Tanaya Guha and Bang Du and
Truong Q. Nguyen
- Abstract要約: 本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
- 参考スコア(独自算出の注目度): 37.58310822924814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mainstream image captioning models rely on Convolutional Neural Network
(CNN) image features with an additional attention to salient regions and
objects to generate captions via recurrent models. Recently, scene graph
representations of images have been used to augment captioning models so as to
leverage their structural semantics, such as object entities, relationships and
attributes. Several studies have noted that naive use of scene graphs from a
black-box scene graph generator harms image caption-ing performance, and scene
graph-based captioning mod-els have to incur the overhead of explicit use of
image features to generate decent captions. Addressing these challenges, we
propose a framework, SG2Caps, that utilizes only the scene graph labels for
competitive image caption-ing performance. The basic idea is to close the
semantic gap between two scene graphs - one derived from the input image and
the other one from its caption. In order to achieve this, we leverage the
spatial location of objects and the Human-Object-Interaction (HOI) labels as an
additional HOI graph. Our framework outperforms existing scene graph-only
captioning models by a large margin (CIDEr score of 110 vs 71) indicating scene
graphs as a promising representation for image captioning. Direct utilization
of the scene graph labels avoids expensive graph convolutions over
high-dimensional CNN features resulting in 49%fewer trainable parameters.
- Abstract(参考訳): メインストリームの画像キャプションモデルは、Convolutional Neural Network (CNN)イメージ機能に依存しており、繰り返しモデルを介してキャプションを生成するために、余計な地域やオブジェクトに注意を払っています。
近年,画像のシーングラフ表現はキャプションモデルの拡張に使われ,オブジェクトの実体や関係,属性などの構造的意味を活用できるようになっている。
いくつかの研究では、ブラックボックスのシーングラフ生成装置からのシーングラフの使用が画像キャプション性能を損なうことが指摘されており、シーングラフベースのキャプションモジュールは、適切なキャプションを生成するために画像特徴の明示的な使用のオーバーヘッドを発生させる必要がある。
これらの課題に対して、競合画像キャプション性能のためにシーングラフラベルのみを利用するフレームワークSG2Capsを提案します。
基本的なアイデアは、2つのシーングラフ間の意味的なギャップを埋めることです。1つは入力画像から、もう1つはキャプションからです。
これを実現するために,オブジェクトの空間的位置とHuman-Object-Interaction (HOI) ラベルを追加のHOIグラフとして活用する。
本フレームワークは,既存のシーングラフのみのキャプションモデルよりも,シーングラフを画像キャプションの有望な表現として,大きなマージン(ciderスコア110対71)で上回っている。
シーングラフラベルの直接利用は、高次元CNN機能に対する高価なグラフ畳み込みを回避し、49%のトレーニング可能なパラメータをもたらす。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Are scene graphs good enough to improve Image Captioning? [19.36188161855731]
画像キャプションにおけるシーングラフの利用について検討する。
シーングラフ機能を使用するモデルと、オブジェクト検出機能のみを使用するモデルの間には、大きな違いは見つからない。
予測されたシーングラフの品質は一般的に非常に低いが、高品質なシーングラフを使用すると最大3.3CIDErのゲインが得られる。
論文 参考訳(メタデータ) (2020-09-25T16:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。