論文の概要: Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning
- arxiv url: http://arxiv.org/abs/2302.02124v1
- Date: Sat, 4 Feb 2023 07:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:05:39.497614
- Title: Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning
- Title(参考訳): Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image Captioning
- Authors: Jingqiang Chen
- Abstract要約: コヒーレントエンティティ対応マルチイメージキャプションは,複数の隣接画像に対するコヒーレントキャプションをニュースドキュメントに生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
3つのデータセットに対する実験により,提案したキャプションモデルが,単一画像キャプション評価により6つのベースラインを上回った。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coherent entity-aware multi-image captioning aims to generate coherent
captions for multiple adjacent images in a news document. There are coherence
relationships among adjacent images because they often describe same entities
or events. These relationships are important for entity-aware multi-image
captioning, but are neglected in entity-aware single-image captioning. Most
existing work focuses on single-image captioning, while multi-image captioning
has not been explored before. Hence, this paper proposes a coherent
entity-aware multi-image captioning model by making use of coherence
relationships. The model consists of a Transformer-based caption generation
model and two types of contrastive learning-based coherence mechanisms. The
generation model generates the caption by paying attention to the image and the
accompanying text. The horizontal coherence mechanism aims to the make the
caption coherent with captions of adjacent images. The vertical coherence
mechanism aims to make the caption coherent with the image and the accompanying
text. To evaluate coherence between captions, two coherence evaluation metrics
are proposed. The new dataset DM800K is constructed that has more images per
document than two existing datasets GoodNews and NYT800K, and are more suitable
for multi-image captioning. Experiments on three datasets show the proposed
captioning model outperforms 6 baselines according to single-image captioning
evaluations, and the generated captions are more coherent than that of
baselines according to coherence evaluations and human evaluations.
- Abstract(参考訳): コヒーレントエンティティ対応マルチイメージキャプションは,複数の隣接画像に対するコヒーレントキャプションをニュースドキュメントに生成することを目的としている。
隣接する画像の間には、同じ実体や出来事をしばしば記述するため、コヒーレンスな関係がある。
これらの関係は、エンティティ対応のマルチイメージキャプションにおいて重要であるが、エンティティ対応のシングルイメージキャプションでは無視される。
既存の作品の多くは単一画像キャプションに焦点を当てているが、複数画像キャプションはこれまでに研究されていない。
そこで本稿では,コヒーレンス関係を利用したコヒーレントなエンティティ対応多画像キャプションモデルを提案する。
このモデルはトランスフォーマーベースのキャプション生成モデルと2種類のコントラスト学習ベースのコヒーレンス機構から構成される。
生成モデルは、画像及び付随するテキストに注意を払ってキャプションを生成する。
水平コヒーレンス機構は、キャプションを隣接画像のキャプションとコヒーレントにすることを目的としている。
垂直コヒーレンス機構は、キャプションを画像と付随するテキストと一貫性を持たせることを目的としている。
キャプション間のコヒーレンスを評価するために,2つのコヒーレンス評価指標を提案する。
新しいデータセットDM800Kは、既存の2つのデータセットであるGoodNewsとNYT800Kよりもドキュメント当たりの画像が多く、マルチイメージキャプションに適している。
3つのデータセットで実験したところ,提案したキャプションモデルは,単画像キャプション評価により6つのベースラインを上回り,生成したキャプションはコヒーレンス評価や人間評価によりベースラインよりもコヒーレントであることがわかった。
関連論文リスト
- Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。