論文の概要: MDSEval: A Meta-Evaluation Benchmark for Multimodal Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2510.01659v1
- Date: Thu, 02 Oct 2025 04:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.989693
- Title: MDSEval: A Meta-Evaluation Benchmark for Multimodal Dialogue Summarization
- Title(参考訳): MDSEval:マルチモーダル対話要約のためのメタ評価ベンチマーク
- Authors: Yinhong Liu, Jianfeng He, Hang Su, Ruixue Lian, Yi Nian, Jake Vincent, Srikanth Vishnubhotla, Robinson Piramuthu, Saab Mansour,
- Abstract要約: MDSEvalはMDSの最初のメタ評価ベンチマークである。
我々の研究は、MDSに特有の重要な評価次元を初めて特定し、形式化するものである。
- 参考スコア(独自算出の注目度): 37.14603751893579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Dialogue Summarization (MDS) is a critical task with wide-ranging applications. To support the development of effective MDS models, robust automatic evaluation methods are essential for reducing both cost and human effort. However, such methods require a strong meta-evaluation benchmark grounded in human annotations. In this work, we introduce MDSEval, the first meta-evaluation benchmark for MDS, consisting image-sharing dialogues, corresponding summaries, and human judgments across eight well-defined quality aspects. To ensure data quality and richfulness, we propose a novel filtering framework leveraging Mutually Exclusive Key Information (MEKI) across modalities. Our work is the first to identify and formalize key evaluation dimensions specific to MDS. We benchmark state-of-the-art modal evaluation methods, revealing their limitations in distinguishing summaries from advanced MLLMs and their susceptibility to various bias.
- Abstract(参考訳): MDS(Multimodal Dialogue Summarization)は、広範囲のアプリケーションにおいて重要なタスクである。
効率的なMDSモデルの開発を支援するため、コストと人的労力の削減にロバストな自動評価手法が不可欠である。
しかし、このような手法には人間のアノテーションをベースとした強力なメタ評価ベンチマークが必要である。
本研究では,MDSEvalについて,画像共有対話,対応する要約,人的判断を8つの明確に定義された品質面に分けた,MDSEvalのメタ評価ベンチマークを紹介する。
データ品質と豊かさを確保するため,Mutually Exclusive Key Information (MEKI) を利用した新しいフィルタリングフレームワークを提案する。
我々の研究は、MDSに特有の重要な評価次元を初めて特定し、形式化するものである。
我々は,最新のモーダル評価手法をベンチマークし,高度なMLLMから要約を区別する際の限界と,様々なバイアスに対する感受性を明らかにした。
関連論文リスト
- Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps [24.36233529148224]
本稿では,各推論ステップと記述の質を評価することによって,推論チェーンの正しさを評価するためのフレームワークを提案する。
MiCEvalは詳細なデータセット上に構築されており、各ステップを正確性、妥当性、情報性に応じて評価するアノテーションを備えている。
実験の結果、MiCEvalを用いた段階的評価は、既存の方法に比べて人間の判断とより密接に一致していることがわかった。
論文 参考訳(メタデータ) (2024-10-18T17:57:40Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Open-Domain Text Evaluation via Contrastive Distribution Methods [75.59039812868681]
本稿では,Contrastive Distribution Methodsと呼ばれるオープンドメインテキスト生成手法を提案する。
マルチターン対話におけるコヒーレンス評価と制御可能な生成におけるコヒーレンス評価の実験により,CDMの優位性は人間の判断と相関していることが示された。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。