論文の概要: Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives
- arxiv url: http://arxiv.org/abs/2503.14604v1
- Date: Tue, 18 Mar 2025 18:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:15.216787
- Title: Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives
- Title(参考訳): マルチモーダルLDM時代の画像キャプション評価 : 課題と今後の展望
- Authors: Sara Sarto, Marcella Cornia, Rita Cucchiara,
- Abstract要約: 機械生成画像キャプションの評価は複雑で進化する課題である。
MLLM(Multimodal Large Language Models)の出現に伴い、画像キャプションがコアタスクとなっている。
本調査では,画像キャプション評価の進歩について概観する。
- 参考スコア(独自算出の注目度): 37.02849705736749
- License:
- Abstract: The evaluation of machine-generated image captions is a complex and evolving challenge. With the advent of Multimodal Large Language Models (MLLMs), image captioning has become a core task, increasing the need for robust and reliable evaluation metrics. This survey provides a comprehensive overview of advancements in image captioning evaluation, analyzing the evolution, strengths, and limitations of existing metrics. We assess these metrics across multiple dimensions, including correlation with human judgment, ranking accuracy, and sensitivity to hallucinations. Additionally, we explore the challenges posed by the longer and more detailed captions generated by MLLMs and examine the adaptability of current metrics to these stylistic variations. Our analysis highlights some limitations of standard evaluation approaches and suggests promising directions for future research in image captioning assessment.
- Abstract(参考訳): 機械生成画像キャプションの評価は複雑で進化する課題である。
MLLM(Multimodal Large Language Models)の出現に伴い、画像キャプションがコアタスクとなり、堅牢で信頼性の高い評価指標の必要性が高まっている。
本調査は,画像キャプション評価の進歩を概観し,既存の指標の進化,強度,限界を分析した。
これらの指標は, 人的判断との相関, ランク精度, 幻覚に対する感受性など, 複数の次元にまたがって評価される。
さらに,MLLMの長大かつ詳細なキャプションによって生じる課題について検討し,これらのスタイリスティックなバリエーションに対する現在のメトリクスの適応性について検討する。
本分析は,標準的な評価手法の限界を強調し,画像キャプション評価における今後の研究の方向性を示唆するものである。
関連論文リスト
- Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Hallucination of Multimodal Large Language Models: A Survey [40.73148186369018]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。
これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。
本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文 参考訳(メタデータ) (2024-04-29T17:59:41Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - IRR: Image Review Ranking Framework for Evaluating Vision-Language Models [25.014419357308192]
大規模ビジョンランゲージモデル(LVLM)は画像とテキストの両方を処理し、画像キャプションや記述生成などのマルチモーダルタスクに優れる。
IRR: Image Review Rankは,批判的レビューテキストを多視点から評価するための新しい評価フレームワークである。
我々は15のカテゴリの画像のデータセットを用いて評価し、それぞれに5つの批評家レビューテキストと、英語と日本語の注釈付きランキングがあり、合計2000以上のデータインスタンスがある。
論文 参考訳(メタデータ) (2024-02-19T13:16:10Z) - A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models
with Adversarial Learning [55.96577490779591]
視覚言語モデルは社会的バイアスやステレオタイプを符号化することができる。
これらのマルチモーダル害の測定と緩和には課題がある。
バイアス尺度を調査し,画像テキスト表現にランキング指標を適用した。
論文 参考訳(メタデータ) (2022-03-22T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。