論文の概要: Group-based Distinctive Image Captioning with Memory Attention
- arxiv url: http://arxiv.org/abs/2108.09151v1
- Date: Fri, 20 Aug 2021 12:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 17:26:08.689210
- Title: Group-based Distinctive Image Captioning with Memory Attention
- Title(参考訳): メモリアテンションを考慮したグループベース識別画像キャプション
- Authors: Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan
- Abstract要約: GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
- 参考スコア(独自算出の注目度): 45.763534774116856
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Describing images using natural language is widely known as image captioning,
which has made consistent progress due to the development of computer vision
and natural language generation techniques. Though conventional captioning
models achieve high accuracy based on popular metrics, i.e., BLEU, CIDEr, and
SPICE, the ability of captions to distinguish the target image from other
similar images is under-explored. To generate distinctive captions, a few
pioneers employ contrastive learning or re-weighted the ground-truth captions,
which focuses on one single input image. However, the relationships between
objects in a similar image group (e.g., items or properties within the same
album or fine-grained events) are neglected. In this paper, we improve the
distinctiveness of image captions using a Group-based Distinctive Captioning
Model (GdisCap), which compares each image with other images in one similar
group and highlights the uniqueness of each image. In particular, we propose a
group-based memory attention (GMA) module, which stores object features that
are unique among the image group (i.e., with low similarity to objects in other
images). These unique object features are highlighted when generating captions,
resulting in more distinctive captions. Furthermore, the distinctive words in
the ground-truth captions are selected to supervise the language decoder and
GMA. Finally, we propose a new evaluation metric, distinctive word rate
(DisWordRate) to measure the distinctiveness of captions. Quantitative results
indicate that the proposed method significantly improves the distinctiveness of
several baseline models, and achieves the state-of-the-art performance on both
accuracy and distinctiveness. Results of a user study agree with the
quantitative evaluation and demonstrate the rationality of the new metric
DisWordRate.
- Abstract(参考訳): 自然言語による画像記述は画像キャプションとして広く知られており、コンピュータビジョンや自然言語生成技術の発展により一貫した進歩を遂げている。
従来のキャプションモデルは、BLEU、CIDEr、SPICEといった一般的な指標に基づいて高い精度を達成するが、他の類似画像とターゲット画像を区別するキャプションの能力は低い。
特徴あるキャプションを生成するために、いくつかの先駆者たちは、1つの入力画像に焦点を当てた対照的な学習や、表向きのキャプションを再強調する。
しかし、類似のイメージグループ内のオブジェクト(例えば、同じアルバム内のアイテムやプロパティ、またはきめ細かいイベント)間の関係は無視される。
本稿では,グループベースの識別キャプションモデル(gdiscap)を用いて,画像キャプションの識別性を向上させる。
特に,画像群に特有のオブジェクト特徴を格納するグループベースのメモリアテンション(GMA)モジュールを提案する。
これらのユニークなオブジェクトの特徴は、キャプションを生成するときに強調され、より特徴的なキャプションをもたらす。
さらに、言語デコーダとGMAを監督するために、接頭辞節中の特徴語を選択する。
最後に,キャプションの識別性を評価するために,新しい評価基準である特徴語率(DisWordRate)を提案する。
定量的な結果から,提案手法は複数のベースラインモデルの識別性を著しく改善し,精度と識別性の両方において最先端の性能を実現することが示唆された。
ユーザスタディの結果は定量的評価と一致し,新たな指標であるDisWordRateの合理性を示す。
関連論文リスト
- Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - Distinctive Image Captioning via CLIP Guided Group Optimization [13.102953452346297]
本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。
本稿では,大規模視覚言語事前学習モデルCLIPを用いて,その特徴を定量化する一連の指標を提案する。
対象画像を類似画像群と比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-08-08T16:37:01Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Compare and Reweight: Distinctive Image Captioning Using Similar Images
Sets [52.3731631461383]
我々は,類似画像の集合を用いた訓練により,画像キャプションの特異性を向上させることを目的としている。
評価基準は,各画像の人的アノテーションが特徴性に基づいて等価でないことを示す。
論文 参考訳(メタデータ) (2020-07-14T07:40:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。