論文の概要: Measuring What Matters Beyond Text: Evaluating Multimodal Summaries by Quality, Alignment, and Diversity
- arxiv url: http://arxiv.org/abs/2605.11693v1
- Date: Tue, 12 May 2026 07:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.67789
- Title: Measuring What Matters Beyond Text: Evaluating Multimodal Summaries by Quality, Alignment, and Diversity
- Title(参考訳): テキストを超えて何が重要かを測定する:品質、アライメント、多様性によるマルチモーダル・サマリーの評価
- Authors: Abid Ali, Diego Molla-Aliod, Usman Naseem,
- Abstract要約: 本稿では,テキスト品質,モーダルアライメント,視覚的多様性などの評価を統合する統合評価フレームワークMM-Evalを紹介する。
MM-Evalは,(1)事実整合性のためにOpenFActScoreを用いて測定されたテキスト品質,(2)コヒーレンス,関連性,(2)MLLM-as-a-judgeアプローチを用いて評価された画像テキスト関連性,(3)Trncated CLIP Entropyを用いて定量化した画像セットの多様性の3つの構成要素から構成される。
この環境では、事実整合性は、知覚された全体的な品質の重要な決定要因として機能する。
- 参考スコア(独自算出の注目度): 12.669087812857533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have facilitated Multimodal Summarization with Multimodal Output (MSMO), wherein systems generate concise textual summaries accompanied by salient visuals from multimodal sources. However, current MSMO evaluation remains fragmented: text quality, image-text alignment, and visual diversity are typically assessed in isolation using unimodal metrics, making it difficult to capture whether the modalities jointly support a faithful and useful summary. To address this gap, we introduce MM-Eval, a unified evaluation framework that integrates assessments of textual quality, cross-modal alignment, and visual diversity. MM-Eval comprises three components: (1) text quality, measured using OpenFActScore for factual consistency and G-Eval for coherence, fluency, and relevance; (2) image-text relevance, evaluated via an MLLM-as-a-judge approach; and (3) image-set diversity, quantified using Truncated CLIP Entropy. We calibrate MM-Eval through a learned aggregation model trained on the mLLM-EVAL news benchmark, aligning component contributions with human preferences. Our analysis reveals a text-dominant hierarchy in this setting, where factual consistency acts as a critical determinant of perceived overall quality, while visual relevance and diversity provide complementary signals. MM-Eval improves over heuristic aggregation baselines and provides an interpretable, reference-weak framework for comparative evaluation of multimodal summaries.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、マルチモーダル出力(MSMO)によるマルチモーダル要約を促進し、システムでは、多モーダルソースからの有能な視覚を伴う簡潔なテキスト要約を生成する。
テキストの品質、画像テキストのアライメント、視覚的多様性は、通常、単調な指標を用いて独立して評価されるため、モダリティが忠実で有用な要約を共同で支持するかどうかを捉えることは困難である。
このギャップに対処するために,テキスト品質,クロスモーダルアライメント,視覚的多様性などの評価を統合する統合評価フレームワークMM-Evalを導入する。
MM-Eval は,(1) 事実整合性のために OpenFActScore を用いて測定されたテキスト品質と,(2) MLLM-as-a-judge アプローチを用いて評価された画像テキスト関連性,(3) トレンシ付き CLIP エントロピーを用いて定量化した画像セットの多様性の3つの構成要素から構成される。
MM-EvalをmLLM-EVALニュースベンチマークでトレーニングした学習集約モデルを用いて校正し、コンポーネントのコントリビューションを人間の好みに合わせる。
そこでは,視覚的関連性や多様性が相補的な信号を提供する一方で,事実整合性は全体的な品質に対する重要な決定要因として機能する。
MM-Evalはヒューリスティックアグリゲーションベースラインよりも改善され、マルチモーダルサマリーの比較評価のための解釈可能な参照弱フレームワークを提供する。
関連論文リスト
- CEMTM: Contextual Embedding-based Multimodal Topic Modeling [46.758152824561144]
我々は,コンテキスト強化型マルチモーダルトピックモデルであるCEMTMを紹介する。
テキストと画像を含む短い文書と長い文書の両方から、一貫性と解釈可能なトピック構造を推論する。
論文 参考訳(メタデータ) (2025-09-14T23:07:46Z) - A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation [14.590341095970883]
本稿では,SEIR(Self-Evaluation with Iterative Refinement)法を用いて構築した大規模マルチモーダルデータセットであるInterSynを紹介する。
InterSynは、強くインターリーブされた画像テキスト応答を備えたマルチターン、命令駆動対話を備えている。
インターリーブ型マルチモーダル出力を評価できる信頼性評価ツールの欠如に対処するため,SynJudgeを紹介した。
論文 参考訳(メタデータ) (2025-06-11T06:21:20Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - MaskEval: Weighted MLM-Based Evaluation for Text Summarization and
Simplification [20.001563227357778]
MaskEvalは、テキストの要約と単純化のための参照なしメトリックである。
候補とソーステキストの連結に基づいて、MLM(Masked Language Modeling)を実行する。
各ステップの相対的な重要性を調節する、注意のような重み付け機構を備えている。
論文 参考訳(メタデータ) (2022-05-24T22:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。