論文の概要: AGIBench: A Multi-granularity, Multimodal, Human-referenced,
Auto-scoring Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2309.06495v1
- Date: Tue, 5 Sep 2023 13:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-17 14:01:13.452480
- Title: AGIBench: A Multi-granularity, Multimodal, Human-referenced,
Auto-scoring Benchmark for Large Language Models
- Title(参考訳): agibench: 大規模言語モデルのためのマルチグラニュラリティ、マルチモーダル、ヒューマンリファレンス、自動スコーリングベンチマーク
- Authors: Fei Tang, Wanling Gao, Luzhou Peng, Jianfeng Zhan
- Abstract要約: ChatGPTのような大規模言語モデルの問題解決能力を評価する方法はホットスポットだが難しい問題だ。
本稿では,LLMのマルチグラニュラ性,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
- 参考スコア(独自算出の注目度): 3.518832148294879
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) like ChatGPT have revealed amazing intelligence.
How to evaluate the question-solving abilities of LLMs and their degrees of
intelligence is a hot-spot but challenging issue. First, the question-solving
abilities are interlaced with different ability branches like understanding and
massive knowledge categories like mathematics. Second, the inputs of questions
are multimodal that may involve text and images. Third, the response format of
LLMs is diverse and thus poses great challenges for result extraction and
evaluation. In this paper, we propose AGIBench -- a multi-granularity,
multimodal, human-referenced, and auto-scoring benchmarking methodology for
LLMs. Instead of a collection of blended questions, AGIBench focuses on three
typical ability branches and adopts a four-tuple <ability branch, knowledge,
difficulty, modal> to label the attributes of each question. First, it supports
multi-granularity benchmarking, e.g., per-question, per-ability branch,
per-knowledge, per-modal, per-dataset, and per-difficulty level granularities.
Second, it contains multimodal input, including text and images. Third, it
classifies all the questions into five degrees of difficulty according to the
average accuracy rate of abundant educated humans (human-referenced). Fourth,
it adopts zero-shot learning to avoid introducing additional unpredictability
and provides an auto-scoring method to extract and judge the result. Finally,
it defines multi-dimensional metrics, including accuracy under the average,
worst, best, and majority voting cases, and repeatability. AGIBench is
publically available from \url{https://www.benchcouncil.org/agibench}.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は驚くべきインテリジェンスを明らかにしている。
LLMの問題解決能力とその知能度を評価する方法はホットスポットだが難しい問題である。
第一に、問題解決能力は、理解や数学のような膨大な知識カテゴリーのような異なる能力の分野に介在する。
第二に、質問の入力はテキストや画像を含むマルチモーダルである。
第3に、LLMの応答形式は多様であり、結果の抽出と評価に大きな課題が生じる。
本稿では,LLMのマルチグラニュラリティ,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
agibench氏は3つの典型的な能力ブランチに注目し、各質問の属性をラベル付けするために4つのタプル <ability branch, knowledge, difficulty, modal>を採用した。
第一に、マルチグラニュラリティベンチマーク(例えば、クエリごと、パービリティーブランチ、知識ごと、モーダルごと、データセットごと、および微分レベル粒度ごと)をサポートする。
第二に、テキストや画像を含むマルチモーダル入力を含む。
第3に、豊富な教育を受けた人間の平均的正確度(人間参照)に応じて、すべての質問を5つの難易度に分類する。
第4に、ゼロショット学習を採用して、追加の予測不可能性の導入を回避し、結果を抽出し判断する自動スコーリング方法を提供する。
最後に、平均、最悪、最良、多数決のケースの精度、繰り返し可能性など、多次元のメトリクスを定義します。
AGIBench は \url{https://www.benchcouncil.org/agibench} から公開されている。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI [0.0]
本研究では,大規模言語モデル(LLM)の有効性について検討した。
モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。
回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
論文 参考訳(メタデータ) (2024-07-04T09:38:49Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。