論文の概要: An Examination of the Robustness of Reference-Free Image Captioning
Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2305.14998v1
- Date: Wed, 24 May 2023 10:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:05:54.898385
- Title: An Examination of the Robustness of Reference-Free Image Captioning
Evaluation Metrics
- Title(参考訳): 基準自由画像キャプション評価指標のロバスト性に関する検討
- Authors: Saba Ahmadi, Aishwarya Agrawal
- Abstract要約: 字幕のきめ細かい誤りを識別するために,CLIPScoreとUMICの頑健さを評価した。
どちらの指標も、キャプションの不明瞭さに対する感度に制限があり、十分な視覚的接地が欠如していることに対して強い感度を示す。
画像キャプションにおける基準のない評価を改善するための貴重なガイドとして,本研究の成果が期待できる。
- 参考スコア(独自算出の注目度): 3.304748810727624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reference-free metrics such as CLIPScore (Hessel et al., 2021) and
UMIC (Lee et al., 2021) have been proposed for automatic evaluation of image
captions, demonstrating a high correlation with human judgment. In this work,
our focus lies in evaluating the robustness of these metrics in scenarios that
require distinguishing between two captions with high lexical overlap but very
different meanings. Our findings reveal that despite their high correlation
with human judgment, both CLIPScore and UMIC struggle to identify fine-grained
errors in captions. However, when comparing different types of fine-grained
errors, both metrics exhibit limited sensitivity to implausibility of captions
and strong sensitivity to lack of sufficient visual grounding. Probing further
into the visual grounding aspect, we found that both CLIPScore and UMIC are
impacted by the size of image-relevant objects mentioned in the caption, and
that CLIPScore is also sensitive to the number of mentions of image-relevant
objects in the caption. In terms of linguistic aspects of a caption, we found
that both metrics lack the ability to comprehend negation, UMIC is sensitive to
caption lengths, and CLIPScore is insensitive to the structure of the sentence.
We hope our findings will serve as a valuable guide towards improving
reference-free evaluation in image captioning.
- Abstract(参考訳): 近年,クリップスコア (hessel et al., 2021) や umic (lee et al., 2021) などの参照フリー指標が画像キャプションの自動評価のために提案されている。
本研究では,2つのキャプションの区別を必要とするシナリオにおいて,これらの指標の堅牢性を評価することに重点を置いている。
以上の結果より,CLIPScoreとUMICの両者は,ヒトの判断に高い相関性があることが判明した。
しかし、異なる種類の細粒度エラーを比較すると、どちらの指標もキャプションの難解さに対する感度が限定され、十分な視覚基盤の欠如に対する強い感度を示す。
視覚的な接地面をさらに調査すると,クリップスコアとumicはキャプションで言及される画像関連オブジェクトのサイズに影響され,クリップコアはキャプション内の画像関連オブジェクトの参照数にも敏感であることがわかった。
キャプションの言語的側面から見ると,どちらの指標も否定を理解する能力に欠けており,UMICはキャプションの長さに敏感であり,CLIPScoreは文の構造に敏感である。
画像キャプションにおける基準のない評価を改善するための貴重なガイドとして,本研究の成果が期待できる。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - CapDet: Unifying Dense Captioning and Open-World Detection Pretraining [68.8382821890089]
本稿では,所定のカテゴリリストに基づいて予測するか,あるいは予測された境界ボックスのカテゴリを直接生成する,CapDetという新しいオープンワールド検出器を提案する。
具体的には,オープンワールド検出と高密度キャプションタスクを,付加的な高密度キャプションヘッドを導入することで,単一の効果的なフレームワークに統合する。
論文 参考訳(メタデータ) (2023-03-04T19:53:00Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。