論文の概要: SPECS: Specificity-Enhanced CLIP-Score for Long Image Caption Evaluation
- arxiv url: http://arxiv.org/abs/2509.03897v1
- Date: Thu, 04 Sep 2025 05:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.064846
- Title: SPECS: Specificity-Enhanced CLIP-Score for Long Image Caption Evaluation
- Title(参考訳): SPECS:ロングイメージキャプション評価のための特異性強化CLIPスコア
- Authors: Xiaofu Chen, Israfel Salazar, Yova Kementchedjhieva,
- Abstract要約: SPECSは、長い画像キャプションに適した参照なしRSメトリックである。
本研究では,SPECSが人間の判断と相関して,オープンソースのLCMベースのメトリクスのパフォーマンスと一致することを示す。
- 参考スコア(独自算出の注目度): 6.049639258554035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As interest grows in generating long, detailed image captions, standard evaluation metrics become increasingly unreliable. N-gram-based metrics though efficient, fail to capture semantic correctness. Representational Similarity (RS) metrics, designed to address this, initially saw limited use due to high computational costs, while today, despite advances in hardware, they remain unpopular due to low correlation to human judgments. Meanwhile, metrics based on large language models (LLMs) show strong correlation with human judgments, but remain too expensive for iterative use during model development. We introduce SPECS (Specificity-Enhanced CLIPScore), a reference-free RS metric tailored to long image captioning. SPECS modifies CLIP with a new objective that emphasizes specificity: rewarding correct details and penalizing incorrect ones. We show that SPECS matches the performance of open-source LLM-based metrics in correlation to human judgments, while being far more efficient. This makes it a practical alternative for iterative checkpoint evaluation during image captioning model development.Our code can be found at https://github.com/mbzuai-nlp/SPECS.
- Abstract(参考訳): 長期にわたる詳細な画像キャプションの生成に対する関心が高まるにつれ、標準評価指標はますます信頼できないものになっている。
N-gramベースのメトリクスは効率的だが、セマンティックな正確さを捉えることができない。
これに対応するために設計された表現類似度(Representational similarity, RS)メトリクスは、当初は高い計算コストのために使用が制限されていた。
一方、大規模言語モデル(LLM)に基づくメトリクスは、人間の判断と強い相関を示すが、モデル開発において反復的な使用には高すぎる。
SPECS(Specificity-Enhanced CLIPScore)は,画像の長いキャプションに適した基準のないRSメトリックである。
SPECSはCLIPを、詳細を正し、不正な詳細を罰する、という、特異性を強調する新しい目的で修正する。
本研究では,SPECSが人間の判断と相関して,オープンソースのLCMベースのメトリクスのパフォーマンスと一致し,より効率的であることを示す。
これは、画像キャプションモデル開発における反復的チェックポイント評価の実用的な代替手段であり、我々のコードはhttps://github.com/mbzuai-nlp/SPECSで見ることができる。
関連論文リスト
- CLEAR: Cue Learning using Evolution for Accurate Recognition Applied to Sustainability Data Extraction [1.2951918600218246]
精度認識のための進化的学習法(CLEAR)について紹介する。
CLEARは、LLMと進化計算を組み合わせて、画像の特殊特徴の認識が改善されるようにキューを生成し、最適化する。
CLEARは人間の認識よりも高い精度を実現し,最大2桁の精度で誤り率を向上する。
論文 参考訳(メタデータ) (2025-01-30T17:13:32Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。