論文の概要: Benchmarking Foundation Models with Language-Model-as-an-Examiner
- arxiv url: http://arxiv.org/abs/2306.04181v2
- Date: Sat, 4 Nov 2023 11:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:19:25.733174
- Title: Benchmarking Foundation Models with Language-Model-as-an-Examiner
- Title(参考訳): Language-Model-as-an-Examinerを用いたベンチマーク基礎モデル
- Authors: Yushi Bai, Jiahao Ying, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang,
Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, Jiayin Zhang, Juanzi Li, Lei
Hou
- Abstract要約: 本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
- 参考スコア(独自算出の注目度): 47.345760054595246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous benchmarks have been established to assess the performance of
foundation models on open-ended question answering, which serves as a
comprehensive test of a model's ability to understand and generate language in
a manner similar to humans. Most of these works focus on proposing new
datasets, however, we see two main issues within previous benchmarking
pipelines, namely testing leakage and evaluation automation. In this paper, we
propose a novel benchmarking framework, Language-Model-as-an-Examiner, where
the LM serves as a knowledgeable examiner that formulates questions based on
its knowledge and evaluates responses in a reference-free manner. Our framework
allows for effortless extensibility as various LMs can be adopted as the
examiner, and the questions can be constantly updated given more diverse
trigger topics. For a more comprehensive and equitable evaluation, we devise
three strategies: (1) We instruct the LM examiner to generate questions across
a multitude of domains to probe for a broad acquisition, and raise follow-up
questions to engage in a more in-depth assessment. (2) Upon evaluation, the
examiner combines both scoring and ranking measurements, providing a reliable
result as it aligns closely with human annotations. (3) We additionally propose
a decentralized Peer-examination method to address the biases in a single
examiner. Our data and benchmarking results are available at:
http://lmexam.xlore.cn.
- Abstract(参考訳): 人間に似た方法で言語を理解し、生成するモデルの能力の包括的なテストとして、オープンエンドの質問応答における基礎モデルのパフォーマンスを評価するために、多くのベンチマークが確立されている。
これらの研究の多くは、新しいデータセットの提案に重点を置いているが、以前のベンチマークパイプラインには2つの大きな問題がある。
本稿では,lmが知識に基づいて質問を定式化し,その応答を参照のない方法で評価する,新たなベンチマークフレームワークであるlanguage-model-as-an-examinerを提案する。
我々のフレームワークは、様々なlmsを検査者として採用することができ、質問はより多様なトリガートピックによって常に更新できるため、無力な拡張性を可能にする。
より包括的かつ公平な評価を行うため,(1)広範囲のドメインに質問を発生させるようLM検査官に指示し,さらに詳細な評価を行うためにフォローアップ質問を提起する3つの戦略を考案した。
2)評価では,評価基準と評価基準を組み合わせ,人間のアノテーションと密接に一致して信頼性の高い結果が得られる。
(3) 単検定における偏りに対処する分散化ピア検定法も提案する。
我々のデータとベンチマーク結果は以下の通りである。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - MERA: A Comprehensive LLM Evaluation in Russian [43.02318109348788]
基礎モデルを評価するために,ロシア語アーキテクチャ(MERA)ベンチマークのオープンなマルチモーダル評価を導入する。
ベンチマークには、11のスキルドメインで生成モデルを評価する21のタスクが含まれている。
本稿では,評価手法,MERA評価のためのオープンソースコードベース,提案システムを備えたリーダボードを提案する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - LLMEval: A Preliminary Study on How to Evaluate Large Language Models [47.12588320134504]
我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。
計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
論文 参考訳(メタデータ) (2023-12-12T16:14:43Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。