論文の概要: CLIPScore: A Reference-free Evaluation Metric for Image Captioning
- arxiv url: http://arxiv.org/abs/2104.08718v1
- Date: Sun, 18 Apr 2021 05:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:40:27.679968
- Title: CLIPScore: A Reference-free Evaluation Metric for Image Captioning
- Title(参考訳): CLIPScore:イメージキャプションのための参照不要評価基準
- Authors: Jack Hessel, Ari Holtzman, Maxwell Forbes, Ronan Le Bras, Yejin Choi
- Abstract要約: Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
- 参考スコア(独自算出の注目度): 44.14502257230038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning has conventionally relied on reference-based automatic
evaluations, where machine captions are compared against captions written by
humans. This is in stark contrast to the reference-free manner in which humans
assess caption quality.
In this paper, we report the surprising empirical finding that CLIP (Radford
et al., 2021), a cross-modal model pretrained on 400M image+caption pairs from
the web, can be used for robust automatic evaluation of image captioning
without the need for references. Experiments spanning several corpora
demonstrate that our new reference-free metric, CLIPScore, achieves the highest
correlation with human judgements, outperforming existing reference-based
metrics like CIDEr and SPICE. Information gain experiments demonstrate that
CLIPScore, with its tight focus on image-text compatibility, is complementary
to existing reference-based metrics that emphasize text-text similarities.
Thus, we also present a reference-augmented version, RefCLIPScore, which
achieves even higher correlation. Beyond literal description tasks, several
case studies reveal domains where CLIPScore performs well (clip-art images,
alt-text rating), but also where it is relatively weaker vs reference-based
metrics, e.g., news captions that require richer contextual knowledge.
- Abstract(参考訳): 画像キャプションは従来,人間が書いたキャプションと機械キャプションを比較した参照ベースの自動評価に頼っていた。
これは、人間がキャプションの品質を評価する基準のない方法とは対照的である。
本稿では,400m画像+キャプチャペアをwebから事前学習したクロスモーダルモデルである clip (radford et al., 2021) が,参照を必要とせずに画像キャプションのロバストな自動評価に利用可能であることを示す。
いくつかのコーパスにまたがる実験により、我々の新しい基準フリーメトリックであるCLIPScoreは、人間の判断と最も高い相関を達成し、CIDErやSPICEのような既存の基準ベースのメトリクスよりも優れています。
情報ゲイン実験により、CLIPScoreは画像とテキストの互換性に重点を置いており、テキストとテキストの類似性を強調する既存の基準ベースのメトリクスを補完することを示した。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
リテラル記述タスク以外にも、いくつかのケーススタディでは、clipscoreがうまく機能する領域(クリップアート画像、altテキスト格付け)が明らかにされているが、参照ベースのメトリクスと比較すると比較的弱い領域(例えば、より豊かな文脈知識を必要とするニュースキャプション)もある。
関連論文リスト
- A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model [5.330266804358638]
画像キャプション評価指標に説明可能性を導入するための説明自由度指標であるFLEURを提案する。
大規模なマルチモーダルモデルを利用することで、FLEURは参照キャプションを必要とせずに画像に対するキャプションを評価することができる。
FLEURは、画像キャプション評価ベンチマークにおいて、人間の判断と高い相関を達成している。
論文 参考訳(メタデータ) (2024-06-10T03:57:39Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。