論文の概要: Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning
- arxiv url: http://arxiv.org/abs/2302.02124v2
- Date: Wed, 29 Nov 2023 12:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 04:14:55.400261
- Title: Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning
- Title(参考訳): Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image Captioning
- Authors: Jingqiang Chen
- Abstract要約: コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
- 参考スコア(独自算出の注目度): 0.65268245109828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coherent entity-aware multi-image captioning aims to generate coherent
captions for neighboring images in a news document. There are coherence
relationships among neighboring images because they often describe same
entities or events. These relationships are important for entity-aware
multi-image captioning, but are neglected in entity-aware single-image
captioning. Most existing work focuses on single-image captioning, while
multi-image captioning has not been explored before. Hence, this paper proposes
a coherent entity-aware multi-image captioning model by making use of coherence
relationships. The model consists of a Transformer-based caption generation
model and two types of contrastive learning-based coherence mechanisms. The
generation model generates the caption by paying attention to the image and the
accompanying text. The caption-caption coherence mechanism aims to render
entities in the caption of the image be also in captions of neighboring images.
The caption-image-text coherence mechanism aims to render entities in the
caption of the image be also in the accompanying text. To evaluate coherence
between captions, two coherence evaluation metrics are proposed. The new
dataset DM800K is constructed that has more images per document than two
existing datasets GoodNews and NYT800K, and is more suitable for multi-image
captioning. Experiments on three datasets show the proposed captioning model
outperforms 7 baselines according to BLUE, Rouge, METEOR, and entity precision
and recall scores. Experiments also show that the generated captions are more
coherent than that of baselines according to caption entity scores, caption
Rouge scores, the two proposed coherence evaluation metrics, and human
evaluations.
- Abstract(参考訳): コヒーレントなエンティティアウェアマルチイメージキャプションは、ニュースドキュメント内の隣接画像に対するコヒーレントキャプションを生成することを目的としている。
同一の実体や事象をしばしば記述するため、隣り合う画像の間にはコヒーレンス関係がある。
これらの関係は、エンティティ対応のマルチイメージキャプションにおいて重要であるが、エンティティ対応のシングルイメージキャプションでは無視される。
既存の作品の多くは単一画像キャプションに焦点を当てているが、複数画像キャプションはこれまでに研究されていない。
そこで本稿では,コヒーレンス関係を利用したコヒーレントなエンティティ対応多画像キャプションモデルを提案する。
このモデルはトランスフォーマーベースのキャプション生成モデルと2種類のコントラスト学習ベースのコヒーレンス機構から構成される。
生成モデルは、画像及び付随するテキストに注意を払ってキャプションを生成する。
キャプション・キャプチャ・コヒーレンス機構は、キャプション内のエンティティを隣り合う画像のキャプションにもレンダリングすることを目的としている。
キャプション・イメージ・テキスト・コヒーレンス機構は、画像のキャプション内のエンティティを付随するテキストにもレンダリングすることを目的としている。
キャプション間のコヒーレンスを評価するために,2つのコヒーレンス評価指標を提案する。
新しいデータセットDM800Kは、既存の2つのデータセットであるGoodNewsとNYT800Kよりもドキュメント当たりの画像が多く、マルチイメージキャプションに適している。
3つのデータセットの実験では、提案されたキャプションモデルがBLUE, Rouge, METEOR, およびエンティティ精度とリコールスコアに従って7つのベースラインを上回っている。
実験の結果, 生成したキャプションは, キャプションエンティティスコア, キャプションルージュスコア, 提案した2つのコヒーレンス評価指標, 人的評価に基づいて, ベースラインよりもコヒーレントであることがわかった。
関連論文リスト
- Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。