論文の概要: On Distinctive Image Captioning via Comparing and Reweighting
- arxiv url: http://arxiv.org/abs/2204.03938v1
- Date: Fri, 8 Apr 2022 08:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 12:19:10.781132
- Title: On Distinctive Image Captioning via Comparing and Reweighting
- Title(参考訳): 比較・重み付けによる特徴的画像キャプションについて
- Authors: Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan
- Abstract要約: 本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
- 参考スコア(独自算出の注目度): 52.3731631461383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image captioning models are achieving impressive results based on
popular metrics, i.e., BLEU, CIDEr, and SPICE. However, focusing on the most
popular metrics that only consider the overlap between the generated captions
and human annotation could result in using common words and phrases, which
lacks distinctiveness, i.e., many similar images have the same caption. In this
paper, we aim to improve the distinctiveness of image captions via comparing
and reweighting with a set of similar images. First, we propose a
distinctiveness metric -- between-set CIDEr (CIDErBtw) to evaluate the
distinctiveness of a caption with respect to those of similar images. Our
metric reveals that the human annotations of each image in the MSCOCO dataset
are not equivalent based on distinctiveness; however, previous works normally
treat the human annotations equally during training, which could be a reason
for generating less distinctive captions. In contrast, we reweight each
ground-truth caption according to its distinctiveness during training. We
further integrate a long-tailed weight strategy to highlight the rare words
that contain more information, and captions from the similar image set are
sampled as negative examples to encourage the generated sentence to be unique.
Finally, extensive experiments are conducted, showing that our proposed
approach significantly improves both distinctiveness (as measured by CIDErBtw
and retrieval metrics) and accuracy (e.g., as measured by CIDEr) for a wide
variety of image captioning baselines. These results are further confirmed
through a user study.
- Abstract(参考訳): 最近の画像キャプションモデルは、BLEU、CIDEr、SPICEといった一般的な指標に基づいて印象的な結果を得ている。
しかし、生成したキャプションと人間の注釈の重なりしか考慮しない最も一般的な指標に注目すると、共通する単語やフレーズが使用され、その特徴性に欠ける、すなわち、類似した画像の多くが同じキャプションを持つ。
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
まず,類似画像に対する字幕の識別性を評価するために,セットcider(ciderbtw)間の識別性指標を提案する。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなったが、従来の研究では、トレーニング中に人間のアノテーションを等しく扱うことが特徴的でないキャプションを生成する理由となり得る。
対照的に、トレーニング中の特徴に応じて、各接頭辞を重み付けする。
さらに,より詳細な情報を含む希少な単語を強調するために長尾重み戦略を取り入れ,類似画像集合からのキャプションを負の例としてサンプリングし,生成文の独特化を促す。
最後に,提案手法は,CIDErBtwで測定した特徴量と,CIDErで測定した精度(例えば,CIDErで測定した精度)を,多種多様な画像キャプションベースラインに対して有意に改善することを示す。
これらの結果はユーザ調査によってさらに確認される。
関連論文リスト
- Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Towards Unique and Informative Captioning of Images [40.036350846970706]
現代のキャプションシステムと評価指標の両方を分析した。
キャプションで生成された概念に対して一意性の概念を導入することで,新しい計量(SPICE)を設計する。
SPICE-U は SPICE と比較して人間の判断と相関し,多様性と記述性の概念を効果的に捉えている。
論文 参考訳(メタデータ) (2020-09-08T19:01:33Z) - Compare and Reweight: Distinctive Image Captioning Using Similar Images
Sets [52.3731631461383]
我々は,類似画像の集合を用いた訓練により,画像キャプションの特異性を向上させることを目的としている。
評価基準は,各画像の人的アノテーションが特徴性に基づいて等価でないことを示す。
論文 参考訳(メタデータ) (2020-07-14T07:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。