論文の概要: Rethinking Generative Large Language Model Evaluation for Semantic
Comprehension
- arxiv url: http://arxiv.org/abs/2403.07872v1
- Date: Tue, 12 Mar 2024 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 19:50:13.755880
- Title: Rethinking Generative Large Language Model Evaluation for Semantic
Comprehension
- Title(参考訳): 意味理解のための生成型大言語モデル評価の再検討
- Authors: Fangyun Wei, Xi Chen, Lin Luo
- Abstract要約: 本稿では,複数の選択質問応答(MCQA)の評価方法について再検討する。
RWQ-Elo レーティングシステムを導入し,24大言語モデル (LLM) を2プレイヤーの競争形式で動作させ,GPT-4 を審査員とする。
このシステムは実世界の利用を反映するように設計されており、そのためにRWQ(Real-world Question')と呼ばれる新しいベンチマークをコンパイルした。
我々の分析は、我々のRWQ-Eloシステムの安定性、新しいモデル登録の可能性、そしてその可能性を明らかにする。
- 参考スコア(独自算出の注目度): 27.21438605541497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their sophisticated capabilities, large language models (LLMs)
encounter a major hurdle in effective assessment. This paper first revisits the
prevalent evaluation method-multiple choice question answering (MCQA), which
allows for straightforward accuracy measurement. Through a comprehensive
evaluation of 24 models across 11 benchmarks, we highlight several potential
drawbacks of MCQA, for instance, the inconsistency between the MCQA evaluation
and the generation of open-ended responses in practical scenarios. In response,
we introduce an RWQ-Elo rating system, engaging 24 LLMs such as GPT-4, GPT-3.5,
Google-Gemini-Pro and LLaMA-1/-2, in a two-player competitive format, with
GPT-4 serving as the judge. Each LLM receives an Elo rating thereafter. This
system is designed to mirror real-world usage, and for this purpose, we have
compiled a new benchmark called ``Real-world questions'' (RWQ), comprising
20,772 authentic user inquiries. Additionally, we thoroughly analyze the
characteristics of our system and compare it with prior leaderboards like
AlpacaEval and MT-Bench. Our analysis reveals the stability of our RWQ-Elo
system, the feasibility of registering new models, and its potential to reshape
LLM leaderboards.
- Abstract(参考訳): その高度な能力にもかかわらず、大きな言語モデル(LLM)は効果的な評価において大きなハードルに直面する。
本稿では,まず, 簡易な精度測定が可能な複数選択質問応答法 (MCQA) について検討する。
11ベンチマークにわたる24モデルの総合的な評価を通じて、MCQAの潜在的な欠点、例えば、MCQA評価と実践シナリオにおけるオープンエンド応答の生成の矛盾を浮き彫りにする。
これに対して, GPT-4, GPT-3.5, Google-Gemini-Pro, LLaMA-1/-2 など 24 個の LLM を2 プレイヤーの競争形式で動作させる RWQ-Elo レーティングシステムを導入する。
各LDMはその後Elo格付けを受ける。
本システムは実世界の利用を反映して設計されており,その目的のために,20,772人の認証ユーザ質問からなる「Real-world Question' (RWQ)」と呼ばれる新しいベンチマークを作成した。
さらに,本システムの特徴を網羅的に分析し,AlpacaEvalやMT-Benchといった従来のリーダボードと比較する。
分析の結果,我々のRWQ-Eloシステムの安定性,新モデルの登録可能性,LCMリーダーボードの再構築の可能性などが明らかになった。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension [27.53415400454066]
生成モデルを評価するためにSEED-Benchというベンチマークを導入する。
SEED-Benchは、正確な人間のアノテーションを持つ19Kの複数の選択質問からなる。
空間的および時間的理解の両面を網羅し,全12次元にわたる18モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-07-30T04:25:16Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - A Clarifying Question Selection System from NTES_ALONG in Convai3
Challenge [8.656503175492375]
本稿では,検索指向会話型AI (SCAI) EMNLPワークショップにおけるClariQチャレンジへのNetEase Game AI Labチームの参加について述べる。
この課題は、解明された質問を理解し、生成できる完全な会話情報検索システムを求めるものである。
本稿では,回答理解,質問のリコール,質問ランキングの明確化からなる質問選択システムを提案する。
論文 参考訳(メタデータ) (2020-10-27T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。