Fugu-MT 論文翻訳(概要): Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

論文の概要: Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

arxiv url: http://arxiv.org/abs/2405.02287v1
Date: Fri, 3 May 2024 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 12:06:51.134572
Title: Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models
Title（参考訳）: Vibe-Eval:マルチモーダル言語モデルの進捗測定のためのハードアセスメントスイート
Authors: Piotr Padlewski, Max Bain, Matthew Henderson, Zhongkai Zhu, Nishant Relan, Hai Pham, Donovan Ong, Kaloyan Aleksiev, Aitor Ormazabal, Samuel Phua, Ethan Yeo, Eugenie Lamprecht, Qi Liu, Yuqi Wang, Eric Chen, Deyu Fu, Lei Li, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Mikel Artetxe, Yi Tay,
Abstract要約: マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。 Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
参考スコア（独自算出の注目度）: 67.62126108440003
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Vibe-Eval: a new open benchmark and framework for evaluating multimodal chat models. Vibe-Eval consists of 269 visual understanding prompts, including 100 of hard difficulty, complete with gold-standard responses authored by experts. Vibe-Eval is open-ended and challenging with dual objectives: (i) vibe checking multimodal chat models for day-to-day tasks and (ii) rigorously testing and probing the capabilities of present frontier models. Notably, our hard set contains >50% questions that all frontier models answer incorrectly. We explore the nuances of designing, evaluating, and ranking models on ultra challenging prompts. We also discuss trade-offs between human and automatic evaluation, and show that automatic model evaluation using Reka Core roughly correlates to human judgment. We offer free API access for the purpose of lightweight evaluation and plan to conduct formal human evaluations for public models that perform well on the Vibe-Eval's automatic scores. We release the evaluation code and data, see https://github.com/reka-ai/reka-vibe-eval
Abstract（参考訳）: マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。 Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。 Vibe-Evalはオープンエンドで、二重目的に挑戦する。一日々のタスクのためのマルチモーダルチャットモデルをチェックすること。 (ii) 現在のフロンティアモデルの機能を厳格にテストし、検証する。特に、私たちのハードセットには、すべてのフロンティアモデルが正しく答えていない50%以上の質問が含まれています。超挑戦的なプロンプトでモデルの設計、評価、ランキングのニュアンスについて検討する。また、人的評価と自動評価のトレードオフについても論じ、Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。軽量な評価を目的としたフリーAPIアクセスを提供し、Vibe-Evalの自動スコアで良好に機能する公開モデルに対して、正式な人間による評価を行う計画を立てる。評価コードとデータは、https://github.com/reka-ai/reka-vibe-evalを参照してください。

関連論文リスト

Judge Model for Large-scale Multimodality Benchmarks [11.960445424565895]
本稿では,多種多様なタスクにまたがる信頼性,説明可能な評価を提供するために,専用マルチモーダル・ジャッジ・モデルを提案する。本フレームワークは,マルチモーダルな判断を集約し,モデル出力の品質と推論の一貫性を分析し,診断フィードバックを生成する。結果は、判断モデルと人間のスコアとの間に強い整合性を示し、スケーラブルで解釈可能な評価パイプラインとしての可能性を示している。
論文参考訳（メタデータ） (2026-01-03T07:17:17Z)
Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文参考訳（メタデータ） (2025-05-28T12:03:09Z)
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation [36.40760924116748]
VQA(Visual Question Answering)の課題に対処するためにMLLM(Multimodal Large Language Models)が登場した。既存の評価手法では、視覚画像のQ&Aペアを設計するために必要な人的負担がかなり大きいため、限界に直面している。本研究では,モデルが質問を自動的に生成し,他のモデルからの回答のピアレビュー評価を行うことのできる,教師なしピアレビューMLLM評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T07:15:41Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
LingoQA: Visual Question Answering for Autonomous Driving [14.620546951115328]
本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。私たちのベンチマークでは、視覚言語モデルは、質問の59.6%に対して、人間の96.6%に対して真に反応する。
論文参考訳（メタデータ） (2023-12-21T18:40:34Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。