Fugu-MT 論文翻訳(概要): SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

論文の概要: SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

arxiv url: http://arxiv.org/abs/2307.16125v2
Date: Wed, 2 Aug 2023 08:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 10:21:58.431731
Title: SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
Title（参考訳）: SEED-Bench: ジェネレータによるマルチモーダルLLMのベンチマーク
Authors: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
Abstract要約: 生成モデルを評価するためにSEED-Benchというベンチマークを導入する。 SEED-Benchは、正確な人間のアノテーションを持つ19Kの複数の選択質問からなる。空間的および時間的理解の両面を網羅し,全12次元にわたる18モデルの性能評価を行った。
参考スコア（独自算出の注目度）: 27.53415400454066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
Abstract（参考訳）: 強力な大規模言語モデル(llms)に基づいて、最近の生成型マルチモーダル大言語モデル(mllm)は重要な研究分野として注目され、理解と生成の両方に顕著な能力を示している。本稿では,SEED-Bench というベンチマークを導入することで,MLLM における生成的理解の評価を,生成的モデルを包括的に評価するための予備的なステップとして扱う。 SEED-Benchは、画像とビデオの両方のモダリティの理解を含む12の評価次元にまたがる、正確な人間のアノテーションによる19Kの複数の選択質問からなる。自動フィルタリングと手作業による検証プロセスを統合することで,特定の評価次元を対象とするマルチチョース質問を生成するための高度なパイプラインを開発した。人間のアノテーションを基本とした複数選択質問は、モデル性能の客観的かつ効率的な評価を可能にし、評価中に人間やGPTの介入が不要になる。さらに,空間的および時間的理解を網羅し,全12次元にわたる18モデルの性能を評価する。評価結果から既存のMLLMの限界を明らかにすることで,SEED-Benchが今後の研究を動機づけるための洞察を提供することを目指している。私たちは、モデル能力を評価し調査するためのプラットフォームを提供するためのリーダーボードをローンチし、一貫して維持します。

関連論文リスト

HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs [24.403284945948272]
AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。 AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
論文参考訳（メタデータ） (2025-05-27T16:17:15Z)
VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文参考訳（メタデータ） (2025-03-30T14:12:21Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。