論文の概要: Are scene graphs good enough to improve Image Captioning?
- arxiv url: http://arxiv.org/abs/2009.12313v2
- Date: Tue, 27 Oct 2020 17:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:12:12.031272
- Title: Are scene graphs good enough to improve Image Captioning?
- Title(参考訳): シーングラフは画像キャプションを改善するのに十分か?
- Authors: Victor Milewski and Marie-Francine Moens and Iacer Calixto
- Abstract要約: 画像キャプションにおけるシーングラフの利用について検討する。
シーングラフ機能を使用するモデルと、オブジェクト検出機能のみを使用するモデルの間には、大きな違いは見つからない。
予測されたシーングラフの品質は一般的に非常に低いが、高品質なシーングラフを使用すると最大3.3CIDErのゲインが得られる。
- 参考スコア(独自算出の注目度): 19.36188161855731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many top-performing image captioning models rely solely on object features
computed with an object detection model to generate image descriptions.
However, recent studies propose to directly use scene graphs to introduce
information about object relations into captioning, hoping to better describe
interactions between objects. In this work, we thoroughly investigate the use
of scene graphs in image captioning. We empirically study whether using
additional scene graph encoders can lead to better image descriptions and
propose a conditional graph attention network (C-GAT), where the image
captioning decoder state is used to condition the graph updates. Finally, we
determine to what extent noise in the predicted scene graphs influence caption
quality. Overall, we find no significant difference between models that use
scene graph features and models that only use object detection features across
different captioning metrics, which suggests that existing scene graph
generation models are still too noisy to be useful in image captioning.
Moreover, although the quality of predicted scene graphs is very low in
general, when using high quality scene graphs we obtain gains of up to 3.3
CIDEr compared to a strong Bottom-Up Top-Down baseline. We open source code to
reproduce all our experiments in
https://github.com/iacercalixto/butd-image-captioning.
- Abstract(参考訳): 多くのトップパフォーマンス画像キャプションモデルは、画像記述を生成するためにオブジェクト検出モデルで計算されたオブジェクトの特徴のみに依存する。
しかし、近年の研究では、シーングラフを直接使用して、キャプションにオブジェクト関係に関する情報を導入することが提案されている。
本研究では,画像キャプションにおけるシーングラフの利用について詳しく検討する。
本研究では,追加のシーングラフエンコーダが画像記述の改善につながるかどうかを実証的に検討し,画像キャプションデコーダの状態を用いてグラフ更新を条件付ける条件付きグラフアテンションネットワーク(C-GAT)を提案する。
最後に、予測されたシーングラフの雑音がキャプション品質に与える影響を判定する。
全体としては、シーングラフ機能を使用するモデルと、異なるキャプションメトリクスにまたがるオブジェクト検出機能のみを使用するモデルの間に大きな差は見出されておらず、既存のシーングラフ生成モデルは、画像キャプションに有用であるには、まだノイズが多いことを示唆している。
さらに,予測されたシーングラフのクオリティは概ね低いが,高品質なシーングラフを使用する場合には,ボトムアップトップダウンベースラインと比較して最大3.3ciderのゲインが得られる。
私たちはすべての実験をhttps://github.com/iacercalixto/butd-image-captioningで再現するためにコードをオープンソースにしました。
関連論文リスト
- FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - SPAN: Learning Similarity between Scene Graphs and Images with Transformers [29.582313604112336]
本稿では,シーングラフと画像の類似性を計測するScene graPh-imAge coNtrastive learning framework, SPANを提案する。
本稿では,シーングラフを構造的エンコーディングを伴うシーケンスに変換する新しいグラフシリアライズ手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T18:13:36Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Scene Graph Generation for Better Image Captioning? [48.411957217304]
検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。
我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
論文 参考訳(メタデータ) (2021-09-23T14:35:11Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Image Scene Graph Generation (SGG) Benchmark [58.33119409657256]
画像シーングラフ生成(オブジェクト、関係検出)への関心が高まっている。
優れたベンチマークが欠如しているため、異なるシーングラフ生成モデルの報告結果と直接比較することができない。
我々は,マスマルクン・ベンチマークといくつかの人気モデルに基づく,待望のシーングラフ生成ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-07-27T05:10:09Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。