論文の概要: ReIFE: Re-evaluating Instruction-Following Evaluation
- arxiv url: http://arxiv.org/abs/2410.07069v1
- Date: Wed, 09 Oct 2024 17:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:37:49.926818
- Title: ReIFE: Re-evaluating Instruction-Following Evaluation
- Title(参考訳): ReIFE: インストラクションフォロー評価の再評価
- Authors: Yixin Liu, Kejian Shi, Alexander R. Fabbri, Yilun Zhao, Peifeng Wang, Chien-Sheng Wu, Shafiq Joty, Arman Cohan,
- Abstract要約: 本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。
評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
- 参考スコア(独自算出の注目度): 105.75525154888655
- License:
- Abstract: The automatic evaluation of instruction following typically involves using large language models (LLMs) to assess response quality. However, there is a lack of comprehensive evaluation of these LLM-based evaluators across two dimensions: the base LLMs and the evaluation protocols. Therefore, we present a thorough meta-evaluation of instruction following, including 25 base LLMs and 15 recently proposed evaluation protocols, on 4 human-annotated datasets, assessing the evaluation accuracy of the LLM-evaluators. Our evaluation allows us to identify the best-performing base LLMs and evaluation protocols with a high degree of robustness. Moreover, our large-scale evaluation reveals: (1) Base LLM performance ranking remains largely consistent across evaluation protocols, with less capable LLMs showing greater improvement from protocol enhancements; (2) Robust evaluation of evaluation protocols requires many base LLMs with varying capability levels, as protocol effectiveness can depend on the base LLM used; (3) Evaluation results on different datasets are not always consistent, so a rigorous evaluation requires multiple datasets with distinctive features. We release our meta-evaluation suite ReIFE, which provides the codebase and evaluation result collection for more than 500 LLM-evaluator configurations, to support future research in instruction-following evaluation.
- Abstract(参考訳): 命令追従の自動評価は、通常、大きな言語モデル(LLM)を使用して応答品質を評価する。
しかし、これらのLCMに基づく評価器は、基本LSMと評価プロトコルの2つの次元にわたって包括的に評価されていない。
そこで本研究では,25基のLDMと15基の最近提案された評価プロトコルを含む命令の詳細なメタ評価を行い,LLM評価器の評価精度を評価した。
評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
さらに, 大規模評価では, 1) 評価プロトコル間の性能評価は, 信頼性が低いこと,(2) 評価プロトコルのロバスト評価は, プロトコルの性能が使用するベースLLMに依存しているため, 多くの基本LLMを必要とすること,(3) 異なるデータセットに対する評価結果が常に一致しているとは限らないこと, 厳密な評価は, 特徴のある複数のデータセットを必要とすること,などを明らかにした。
我々は,500 LLM-evaluator 構成のコードベースと評価結果の収集を行うメタ評価スイート ReIFE をリリースした。
関連論文リスト
- Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models [7.529095331830944]
大規模言語モデル(LLM)を評価するための現在のベンチマークでは、コンテンツ制限の評価、不適切な更新、最適化ガイダンスの欠如などの問題がある。
本稿では,LLMのベンチマーク評価評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-10T10:42:02Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。