論文の概要: An Examination of the Robustness of Reference-Free Image Captioning
Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2305.14998v2
- Date: Tue, 6 Feb 2024 04:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:51:06.852720
- Title: An Examination of the Robustness of Reference-Free Image Captioning
Evaluation Metrics
- Title(参考訳): 基準自由画像キャプション評価指標のロバスト性に関する検討
- Authors: Saba Ahmadi, Aishwarya Agrawal
- Abstract要約: CLIPScore,UMIC,PAC-Sの2つのキャプションを高い語彙重なり合いで区別する必要があるが,意味が全く異なるシナリオで評価した。
以上の結果から,CLIPScore,UMIC,PAC-Sと高い相関がみられた。
- 参考スコア(独自算出の注目度): 6.137805050050414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reference-free metrics such as CLIPScore (Hessel et al., 2021),
UMIC (Lee et al., 2021), and PAC-S (Sarto et al., 2023) have been proposed for
automatic reference-free evaluation of image captions. Our focus lies in
evaluating the robustness of these metrics in scenarios that require
distinguishing between two captions with high lexical overlap but very
different meanings. Our findings reveal that despite their high correlation
with human judgments, CLIPScore, UMIC, and PAC-S struggle to identify
fine-grained errors. While all metrics exhibit strong sensitivity to visual
grounding errors, their sensitivity to caption implausibility errors is
limited. Furthermore, we found that all metrics are sensitive to variations in
the size of image-relevant objects mentioned in the caption, while CLIPScore
and PAC-S are also sensitive to the number of mentions of image-relevant
objects in the caption. Regarding linguistic aspects of a caption, all metrics
show weak comprehension of negation, and CLIPScore and PAC-S are insensitive to
the structure of the caption to a great extent. We hope our findings will guide
further improvements in reference-free evaluation of image captioning.
- Abstract(参考訳): 近年,CLIPScore (Hessel et al., 2021), UMIC (Lee et al., 2021), PAC-S (Sarto et al., 2023) などの参照フリー指標が画像キャプションの自動参照フリー評価のために提案されている。
我々の焦点は、語彙の重なりが大きい2つのキャプションを区別する必要があるシナリオにおいて、これらの指標の堅牢性を評価することである。
以上の結果から,クリップスコア,umic,pac-sは,人間の判断と高い相関関係にあるものの,きめ細かい誤りの特定に苦慮していることが明らかとなった。
すべての指標は視覚的な接地誤差に対して強い感度を示すが、キャプションに対する感受性は限定的である。
さらに,すべての指標がキャプション内の画像関連物の大きさの変動に敏感であり,CLIPScoreとPAC-Sもキャプション内の画像関連物への言及数に敏感であることがわかった。
キャプションの言語的側面については,すべての指標が否定の弱い理解を示し,CLIPScoreとPAC-Sはキャプションの構造に非常に敏感である。
画像キャプションの非参照評価のさらなる改善が期待できる。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - CapDet: Unifying Dense Captioning and Open-World Detection Pretraining [68.8382821890089]
本稿では,所定のカテゴリリストに基づいて予測するか,あるいは予測された境界ボックスのカテゴリを直接生成する,CapDetという新しいオープンワールド検出器を提案する。
具体的には,オープンワールド検出と高密度キャプションタスクを,付加的な高密度キャプションヘッドを導入することで,単一の効果的なフレームワークに統合する。
論文 参考訳(メタデータ) (2023-03-04T19:53:00Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。