論文の概要: Compare and Reweight: Distinctive Image Captioning Using Similar Images
Sets
- arxiv url: http://arxiv.org/abs/2007.06877v1
- Date: Tue, 14 Jul 2020 07:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:33:27.804326
- Title: Compare and Reweight: Distinctive Image Captioning Using Similar Images
Sets
- Title(参考訳): 比較とリウェイト:類似画像集合を用いた識別的画像キャプション
- Authors: Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan
- Abstract要約: 我々は,類似画像の集合を用いた訓練により,画像キャプションの特異性を向上させることを目的としている。
評価基準は,各画像の人的アノテーションが特徴性に基づいて等価でないことを示す。
- 参考スコア(独自算出の注目度): 52.3731631461383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A wide range of image captioning models has been developed, achieving
significant improvement based on popular metrics, such as BLEU, CIDEr, and
SPICE. However, although the generated captions can accurately describe the
image, they are generic for similar images and lack distinctiveness, i.e.,
cannot properly describe the uniqueness of each image. In this paper, we aim to
improve the distinctiveness of image captions through training with sets of
similar images. First, we propose a distinctiveness metric -- between-set CIDEr
(CIDErBtw) to evaluate the distinctiveness of a caption with respect to those
of similar images. Our metric shows that the human annotations of each image
are not equivalent based on distinctiveness. Thus we propose several new
training strategies to encourage the distinctiveness of the generated caption
for each image, which are based on using CIDErBtw in a weighted loss function
or as a reinforcement learning reward. Finally, extensive experiments are
conducted, showing that our proposed approach significantly improves both
distinctiveness (as measured by CIDErBtw and retrieval metrics) and accuracy
(e.g., as measured by CIDEr) for a wide variety of image captioning baselines.
These results are further confirmed through a user study.
- Abstract(参考訳): BLEU、CIDEr、SPICEといった一般的な指標に基づいて、幅広い画像キャプションモデルが開発され、大幅に改善されている。
しかし、生成されたキャプションは画像を正確に記述できるが、類似した画像には汎用的であり、各画像の特異性を適切に記述することができない。
本稿では,類似画像の集合を用いた訓練により,画像キャプションの識別性を向上することを目的とする。
まず,類似画像に対する字幕の識別性を評価するために,セットcider(ciderbtw)間の識別性指標を提案する。
評価基準は,各画像の人的アノテーションが特徴性に基づいて等価でないことを示す。
そこで本研究では,CIDErBtwを重み付き損失関数あるいは強化学習報酬として用いることにより,画像毎のキャプションの特異性を高めるための新たなトレーニング戦略を提案する。
最後に,提案手法は,CIDErBtwで測定した特徴量と,CIDErで測定した精度(例えば,CIDErで測定した精度)を,多種多様な画像キャプションベースラインに対して有意に改善することを示す。
これらの結果はユーザ調査によってさらに確認される。
関連論文リスト
- Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Distinctive Image Captioning via CLIP Guided Group Optimization [13.102953452346297]
本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。
本稿では,大規模視覚言語事前学習モデルCLIPを用いて,その特徴を定量化する一連の指標を提案する。
対象画像を類似画像群と比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-08-08T16:37:01Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Towards Unique and Informative Captioning of Images [40.036350846970706]
現代のキャプションシステムと評価指標の両方を分析した。
キャプションで生成された概念に対して一意性の概念を導入することで,新しい計量(SPICE)を設計する。
SPICE-U は SPICE と比較して人間の判断と相関し,多様性と記述性の概念を効果的に捉えている。
論文 参考訳(メタデータ) (2020-09-08T19:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。