論文の概要: LLM-Free Image Captioning Evaluation in Reference-Flexible Settings
- arxiv url: http://arxiv.org/abs/2512.21582v1
- Date: Thu, 25 Dec 2025 08:59:57 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:07:05.645941
- Title: LLM-Free Image Captioning Evaluation in Reference-Flexible Settings
- Title(参考訳): 基準フレキシブル設定におけるLCMフリー画像キャプション評価
- Authors: Shinnosuke Hirano, Yuiga Wada, Kazuki Matsuda, Seitaro Otsuki, Komei Sugiura,
- Abstract要約: 参照ベースと参照フリーの両方の設定における画像キャプションの自動評価に焦点を当てた。
本稿では,イメージキャプションとキャプションキャプションキャプションの類似性の表現を学習する新しいメカニズムを提案する。
パール氏は、コンポジトリ、Flickr8K-Expert、Flickr8K-CF、Nebula、FOILデータセット上の既存のLCMフリーメトリクスを、参照ベースと参照フリーの両方で上回った。
- 参考スコア(独自算出の注目度): 3.8028282626618526
- License:
- Abstract: We focus on the automatic evaluation of image captions in both reference-based and reference-free settings. Existing metrics based on large language models (LLMs) favor their own generations; therefore, the neutrality is in question. Most LLM-free metrics do not suffer from such an issue, whereas they do not always demonstrate high performance. To address these issues, we propose Pearl, an LLM-free supervised metric for image captioning, which is applicable to both reference-based and reference-free settings. We introduce a novel mechanism that learns the representations of image--caption and caption--caption similarities. Furthermore, we construct a human-annotated dataset for image captioning metrics, that comprises approximately 333k human judgments collected from 2,360 annotators across over 75k images. Pearl outperformed other existing LLM-free metrics on the Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, and FOIL datasets in both reference-based and reference-free settings. Our project page is available at https://pearl.kinsta.page/.
- Abstract(参考訳): 参照ベースと参照フリーの両方の設定における画像キャプションの自動評価に焦点を当てた。
大きな言語モデル(LLM)に基づく既存のメトリクスは、独自の世代を好むため、中立性には疑問がある。
LLMのないほとんどのメトリクスはそのような問題に悩まされるわけではないが、高い性能を示すとは限らない。
これらの問題に対処するために,画像キャプションのためのLLMフリー教師付きメトリックであるPearlを提案する。
本稿では,イメージキャプションとキャプションキャプションキャプションの類似性の表現を学習する新しいメカニズムを提案する。
さらに,75k以上の画像にわたる2,360の注釈者から収集された約333kの人的判断を含む,画像キャプション計測のための人的注釈付きデータセットを構築した。
パール氏は、コンポジトリ、Flickr8K-Expert、Flickr8K-CF、Nebula、FOILデータセット上の既存のLCMフリーメトリクスを、参照ベースと参照フリーの両方で上回った。
私たちのプロジェクトページはhttps://pearl.kinsta.page/.comで公開されている。
関連論文リスト
- CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era [41.135849912850695]
6000以上のペアワイドなキャプションバトルと高品質な人間の選好投票を備えたプラットフォームを構築します。
私たちのアリーナスタイルの評価はマイルストーンであり、GPT-4oのような主要なモデルが人間のパフォーマンスを達成または上回っていることを示している。
CapArena-Autoは詳細なキャプションのための正確で効率的な自動ベンチマークで、人間のランキングと94.3%の相関をテストあたり4ドルで達成しています。
論文 参考訳(メタデータ) (2025-03-16T02:56:09Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning [1.3654846342364308]
本稿では,幻覚に対して頑健な新しい教師付き自動評価尺度であるDENEBを提案する。
DENEBを訓練するために,32,978枚の画像と人間の判断を組み合わせた多彩でバランスの取れた星雲データセットを構築した。
DeNEBはFOIL, Composite, Flickr8K-Expert, Flickr 8058K-CF, Nebula, PASCAL-50Sデータセット上で, 既存のLCMフリーメトリクスの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-09-28T06:04:56Z) - FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model [5.330266804358638]
画像キャプション評価指標に説明可能性を導入するための説明自由度指標であるFLEURを提案する。
大規模なマルチモーダルモデルを利用することで、FLEURは参照キャプションを必要とせずに画像に対するキャプションを評価することができる。
FLEURは、画像キャプション評価ベンチマークにおいて、人間の判断と高い相関を達成している。
論文 参考訳(メタデータ) (2024-06-10T03:57:39Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。