論文の概要: Towards Unique and Informative Captioning of Images
- arxiv url: http://arxiv.org/abs/2009.03949v1
- Date: Tue, 8 Sep 2020 19:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 21:22:27.111259
- Title: Towards Unique and Informative Captioning of Images
- Title(参考訳): 画像の独特で情報的なキャプションを目指して
- Authors: Zeyu Wang, Berthy Feng, Karthik Narasimhan, Olga Russakovsky
- Abstract要約: 現代のキャプションシステムと評価指標の両方を分析した。
キャプションで生成された概念に対して一意性の概念を導入することで,新しい計量(SPICE)を設計する。
SPICE-U は SPICE と比較して人間の判断と相関し,多様性と記述性の概念を効果的に捉えている。
- 参考スコア(独自算出の注目度): 40.036350846970706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite considerable progress, state of the art image captioning models
produce generic captions, leaving out important image details. Furthermore,
these systems may even misrepresent the image in order to produce a simpler
caption consisting of common concepts. In this paper, we first analyze both
modern captioning systems and evaluation metrics through empirical experiments
to quantify these phenomena. We find that modern captioning systems return
higher likelihoods for incorrect distractor sentences compared to ground truth
captions, and that evaluation metrics like SPICE can be 'topped' using simple
captioning systems relying on object detectors. Inspired by these observations,
we design a new metric (SPICE-U) by introducing a notion of uniqueness over the
concepts generated in a caption. We show that SPICE-U is better correlated with
human judgements compared to SPICE, and effectively captures notions of
diversity and descriptiveness. Finally, we also demonstrate a general technique
to improve any existing captioning model -- by using mutual information as a
re-ranking objective during decoding. Empirically, this results in more unique
and informative captions, and improves three different state-of-the-art models
on SPICE-U as well as average score over existing metrics.
- Abstract(参考訳): かなりの進歩にもかかわらず、最先端の画像キャプションモデルは一般的なキャプションを生成し、重要な画像の詳細は残している。
さらに、これらのシステムは、共通の概念からなる単純なキャプションを生成するために、イメージを誤って表現することもある。
本稿では,これらの現象を定量化するための実証実験を通じて,近代的なキャプションシステムと評価指標の両方をまず分析する。
現代のキャプションシステムでは, 真実のキャプションに比較して, 誤用文の出現率が高く, SPICEなどの評価指標は, オブジェクト検出器に依存した単純なキャプションシステムを用いて「トッププット」できることがわかった。
これらの観測に触発されて、キャプションで生成された概念に一意性の概念を導入することにより、新しい計量(SPICE-U)を設計する。
SPICE-U は SPICE と比較して人間の判断と相関し,多様性と記述性の概念を効果的に捉えている。
最後に、復号時に相互情報を用いて既存のキャプションモデルを改善するための一般的な手法についても示す。
経験的に、これはよりユニークで情報的なキャプションをもたらし、SPICE-Uの3つの最先端モデルを改善し、既存のメトリクスの平均スコアも改善する。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Belief Revision based Caption Re-ranker with Visual Semantic Information [31.20692237930281]
本稿では,視覚的セマンティックな手法を用いて理想的なキャプションを識別する手法を提案する。
実験では,提案手法の有効性を実証し,一般的な画像キャプチャシステムの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-16T20:36:41Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。