論文の概要: KBE-DME: Dynamic Multimodal Evaluation via Knowledge Enhanced Benchmark Evolution
- arxiv url: http://arxiv.org/abs/2510.21182v1
- Date: Fri, 24 Oct 2025 06:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.400614
- Title: KBE-DME: Dynamic Multimodal Evaluation via Knowledge Enhanced Benchmark Evolution
- Title(参考訳): KBE-DME:知識強化ベンチマーク進化による動的マルチモーダル評価
- Authors: Junzhe Zhang, Huixuan Zhang, Xiaojun Wan,
- Abstract要約: 既存の静的ベンチマークは、データ汚染と飽和の潜在的なリスクに悩まされる。
本稿では,動的マルチモーダル評価フレームワークであるKnowledge-enhanced Benchmark Evolutionを提案する。
大規模な実験により、KBEはデータ汚染やデータ飽和のリスクを軽減し、MLLM能力のより包括的な評価を提供する。
- 参考スコア(独自算出の注目度): 39.854836281968325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of multimodal large language models (MLLMs) calls for more reliable evaluation protocols. Existing static benchmarks suffer from the potential risk of data contamination and saturation, leading to inflated or misleading performance evaluations. To address these issues, we first apply Graph formulation to represent a static or dynamic VQA sample. With the formulation, we propose Knowledge-enhanced Benchmark Evolution(KBE), a dynamic multimodal evaluation framework. KBE first analyzes the original static benchmark, then expands it by integrating multimodal knowledge, transforming the static benchmark into a controllable, dynamic evolving version. Crucially, KBE can both reconstruct questions by Re-selecting visual information in the original image and expand existing questions with external textual knowledge. It enables difficulty-controllable evaluation by adjusting the degree of question exploration. Extensive experiments demonstrate that KBE alleviates the risk of data contamination, data saturation, and provides a more comprehensive assessment of MLLM capabilities.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の急速な進歩により、より信頼性の高い評価プロトコルが求められている。
既存の静的ベンチマークは、データ汚染と飽和の潜在的なリスクに悩まされ、膨らませたり誤解を招くパフォーマンス評価に繋がる。
これらの問題に対処するために、我々はまずグラフ定式化を適用して静的または動的VQAサンプルを表現する。
この定式化により,動的マルチモーダル評価フレームワークであるKBE(Knowledge-enhanced Benchmark Evolution)を提案する。
KBEは最初、元の静的ベンチマークを分析し、その後、マルチモーダルな知識を統合して拡張し、静的ベンチマークを制御可能で動的に進化するバージョンに変換する。
重要なことは、KBEは元の画像の視覚情報を再選択し、既存の質問を外部のテキスト知識で拡張することで、質問を再構築できる。
質問探索の度合いを調整することで、難易度評価を可能にする。
大規模な実験により、KBEはデータ汚染やデータ飽和のリスクを軽減し、MLLM能力のより包括的な評価を提供する。
関連論文リスト
- InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models [2.463617251923349]
AdEval は anAlignment ベースの Dynamic Evaluation メソッドである。
静的なデータセットから知識ポイントと主要なアイデアを抽出し、静的なベンチマークのコアコンテンツとの動的アライメントを実現する。
ブルームの認知階層に基づく質問を、記憶、理解、適用、分析、評価、作成の6次元にわたって設計し、多段階認知評価を可能にする。
論文 参考訳(メタデータ) (2025-01-23T06:57:24Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping [45.584695790489484]
LVLM(Large Vision-Language Models)は、マルチモーダルタスクにまたがる顕著な機能を示す。
VLB(Vision-Language Bootstrapping)と呼ばれる動的マルチモーダル評価プロトコルを導入する。
VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-10-11T10:33:51Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。