論文の概要: VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions
- arxiv url: http://arxiv.org/abs/2509.25818v1
- Date: Tue, 30 Sep 2025 05:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.446816
- Title: VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions
- Title(参考訳): VELA:LLM-Hybrid-as-a-Judgeアプローチによる長期画像キャプチャの評価
- Authors: Kazuki Matsuda, Yuiga Wada, Shinnosuke Hirano, Seitaro Otsuki, Komei Sugiura,
- Abstract要約: VELAはLLM-Hybrid-as-a-Judgeフレームワーク内で開発された長文キャプションの自動評価指標である。
LongCap-Arenaは、ロングキャプションのメトリクスを評価するために特別に設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 3.8028282626618526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on the automatic evaluation of long and detailed image captions generated by multimodal Large Language Models (MLLMs). Most existing automatic evaluation metrics for image captioning are primarily designed for short captions and are not suitable for evaluating long captions. Moreover, recent LLM-as-a-Judge approaches suffer from slow inference due to their reliance on autoregressive inference and early fusion of visual information. To address these limitations, we propose VELA, an automatic evaluation metric for long captions developed within a novel LLM-Hybrid-as-a-Judge framework. Furthermore, we propose LongCap-Arena, a benchmark specifically designed for evaluating metrics for long captions. This benchmark comprises 7,805 images, the corresponding human-provided long reference captions and long candidate captions, and 32,246 human judgments from three distinct perspectives: Descriptiveness, Relevance, and Fluency. We demonstrated that VELA outperformed existing metrics and achieved superhuman performance on LongCap-Arena.
- Abstract(参考訳): 本研究では,MLLM(Multimodal Large Language Models)が生成する長大かつ詳細な画像キャプションの自動評価に焦点を当てた。
既存の画像キャプションの自動評価基準のほとんどは、主に短いキャプション用に設計されており、長いキャプションの評価には適していない。
さらに,近年のLCM-as-a-Judgeアプローチは,自己回帰的推論と視覚情報の早期融合に依存しているため,推論が遅い。
これらの制約に対処するために,新しいLLM-Hybrid-as-a-Judgeフレームワークで開発された長文キャプションの自動評価指標VELAを提案する。
さらに,長いキャプションのメトリクスを評価するためのベンチマークであるLongCap-Arenaを提案する。
このベンチマークは、7,805枚の画像、それに対応する人間が提供する長い参照キャプションと長い候補キャプション、そして3つの異なる視点から32,246個の人間の判断から成っている。
VELAは既存の指標より優れており,LongCap-Arena上で超人的性能を達成した。
関連論文リスト
- OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models [65.8015696586307]
長字幕の字幕事実性を測定する新しい方法であるOV-Factを紹介する。
提案手法は,人間の判断との一致を改善し,同じ指標におけるキャプタネス(リコール)と事実精度の両方をキャプチャする。
従来のメトリクスとは異なり、参照不要なメソッド設計は、ファクトリティベースのデータフィルタリングに向けた新しいアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-07-25T13:38:06Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。