Fugu-MT 論文翻訳(概要): Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives

論文の概要: Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives

arxiv url: http://arxiv.org/abs/2503.14604v1
Date: Tue, 18 Mar 2025 18:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.808097
Title: Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives
Title（参考訳）: マルチモーダルLDM時代の画像キャプション評価 : 課題と今後の展望
Authors: Sara Sarto, Marcella Cornia, Rita Cucchiara,
Abstract要約: 機械生成画像キャプションの評価は複雑で進化する課題である。 MLLM(Multimodal Large Language Models)の出現に伴い、画像キャプションがコアタスクとなっている。本調査では,画像キャプション評価の進歩について概観する。
参考スコア（独自算出の注目度）: 37.02849705736749
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The evaluation of machine-generated image captions is a complex and evolving challenge. With the advent of Multimodal Large Language Models (MLLMs), image captioning has become a core task, increasing the need for robust and reliable evaluation metrics. This survey provides a comprehensive overview of advancements in image captioning evaluation, analyzing the evolution, strengths, and limitations of existing metrics. We assess these metrics across multiple dimensions, including correlation with human judgment, ranking accuracy, and sensitivity to hallucinations. Additionally, we explore the challenges posed by the longer and more detailed captions generated by MLLMs and examine the adaptability of current metrics to these stylistic variations. Our analysis highlights some limitations of standard evaluation approaches and suggests promising directions for future research in image captioning assessment.
Abstract（参考訳）: 機械生成画像キャプションの評価は複雑で進化する課題である。 MLLM(Multimodal Large Language Models)の出現に伴い、画像キャプションがコアタスクとなり、堅牢で信頼性の高い評価指標の必要性が高まっている。本調査は,画像キャプション評価の進歩を概観し,既存の指標の進化,強度,限界を分析した。これらの指標は, 人的判断との相関, ランク精度, 幻覚に対する感受性など, 複数の次元にまたがって評価される。さらに,MLLMの長大かつ詳細なキャプションによって生じる課題について検討し,これらのスタイリスティックなバリエーションに対する現在のメトリクスの適応性について検討する。本分析は,標準的な評価手法の限界を強調し,画像キャプション評価における今後の研究の方向性を示唆するものである。

関連論文リスト

Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark [27.134554623769898]
推論に基づくポーズ推定(RPE)ベンチマークは、ポーズ対応大規模言語モデル(MLLM)の広く採用されている評価標準として登場した。公平で一貫した定量的評価を妨げる批判的かつベンチマーク品質の問題を特定しました。
論文参考訳（メタデータ） (2025-07-17T17:33:11Z)
HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation [0.0]
本調査では,注目に基づく画像キャプションモデルについてレビューし,これらをトランスフォーマーベース,ディープラーニングベース,ハイブリッドアプローチに分類した。ベンチマークデータセットを調査し、BLEU、METEOR、CIDEr、ROUGEなどの評価指標を検討し、多言語キャプションにおける課題を強調している。我々は、マルチモーダル学習、AIによるアシスタントのリアルタイム応用、医療、法医学的分析など、将来の研究方向を特定する。
論文参考訳（メタデータ） (2025-06-03T22:18:19Z)
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文参考訳（メタデータ） (2025-03-14T16:26:11Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。中間画像記述を生成する構造付きマルチラウンド評価機構を含む。複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Coverage of MLLMs [31.628388563011185]
包括的ビジュアルキャプションベンチマークであるCV-CapBenchを提案する。 CV-CapBenchは、6つのビューと13次元のキャプション品質を体系的に評価する。
論文参考訳（メタデータ） (2025-02-19T07:55:51Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳（メタデータ） (2024-07-18T17:59:30Z)
Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文参考訳（メタデータ） (2024-02-28T01:29:36Z)
IRR: Image Review Ranking Framework for Evaluating Vision-Language Models [25.014419357308192]
大規模ビジョンランゲージモデル(LVLM)は画像とテキストの両方を処理し、画像キャプションや記述生成などのマルチモーダルタスクに優れる。 IRR: Image Review Rankは,批判的レビューテキストを多視点から評価するための新しい評価フレームワークである。我々は15のカテゴリの画像のデータセットを用いて評価し、それぞれに5つの批評家レビューテキストと、英語と日本語の注釈付きランキングがあり、合計2000以上のデータインスタンスがある。
論文参考訳（メタデータ） (2024-02-19T13:16:10Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。