論文の概要: Benchmarking Foundation Models with Language-Model-as-an-Examiner
- arxiv url: http://arxiv.org/abs/2306.04181v2
- Date: Sat, 4 Nov 2023 11:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:19:25.733174
- Title: Benchmarking Foundation Models with Language-Model-as-an-Examiner
- Title(参考訳): Language-Model-as-an-Examinerを用いたベンチマーク基礎モデル
- Authors: Yushi Bai, Jiahao Ying, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang,
Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, Jiayin Zhang, Juanzi Li, Lei
Hou
- Abstract要約: 本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
- 参考スコア(独自算出の注目度): 47.345760054595246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous benchmarks have been established to assess the performance of
foundation models on open-ended question answering, which serves as a
comprehensive test of a model's ability to understand and generate language in
a manner similar to humans. Most of these works focus on proposing new
datasets, however, we see two main issues within previous benchmarking
pipelines, namely testing leakage and evaluation automation. In this paper, we
propose a novel benchmarking framework, Language-Model-as-an-Examiner, where
the LM serves as a knowledgeable examiner that formulates questions based on
its knowledge and evaluates responses in a reference-free manner. Our framework
allows for effortless extensibility as various LMs can be adopted as the
examiner, and the questions can be constantly updated given more diverse
trigger topics. For a more comprehensive and equitable evaluation, we devise
three strategies: (1) We instruct the LM examiner to generate questions across
a multitude of domains to probe for a broad acquisition, and raise follow-up
questions to engage in a more in-depth assessment. (2) Upon evaluation, the
examiner combines both scoring and ranking measurements, providing a reliable
result as it aligns closely with human annotations. (3) We additionally propose
a decentralized Peer-examination method to address the biases in a single
examiner. Our data and benchmarking results are available at:
http://lmexam.xlore.cn.
- Abstract(参考訳): 人間に似た方法で言語を理解し、生成するモデルの能力の包括的なテストとして、オープンエンドの質問応答における基礎モデルのパフォーマンスを評価するために、多くのベンチマークが確立されている。
これらの研究の多くは、新しいデータセットの提案に重点を置いているが、以前のベンチマークパイプラインには2つの大きな問題がある。
本稿では,lmが知識に基づいて質問を定式化し,その応答を参照のない方法で評価する,新たなベンチマークフレームワークであるlanguage-model-as-an-examinerを提案する。
我々のフレームワークは、様々なlmsを検査者として採用することができ、質問はより多様なトリガートピックによって常に更新できるため、無力な拡張性を可能にする。
より包括的かつ公平な評価を行うため,(1)広範囲のドメインに質問を発生させるようLM検査官に指示し,さらに詳細な評価を行うためにフォローアップ質問を提起する3つの戦略を考案した。
2)評価では,評価基準と評価基準を組み合わせ,人間のアノテーションと密接に一致して信頼性の高い結果が得られる。
(3) 単検定における偏りに対処する分散化ピア検定法も提案する。
我々のデータとベンチマーク結果は以下の通りである。
関連論文リスト
- Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy [32.083896395844924]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - MERA: A Comprehensive LLM Evaluation in Russian [43.65236119370611]
基礎モデルを評価するために,ロシア語アーキテクチャ(MERA)ベンチマークのオープンなマルチモーダル評価を導入する。
ベンチマークには、11のスキルドメインで生成モデルを評価する21のタスクが含まれている。
本稿では,評価手法,MERA評価のためのオープンソースコードベース,提案システムを備えたリーダボードを提案する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - LLMEval: A Preliminary Study on How to Evaluate Large Language Models [47.12588320134504]
我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。
計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
論文 参考訳(メタデータ) (2023-12-12T16:14:43Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。