論文の概要: RocketEval: Efficient Automated LLM Evaluation via Grading Checklist
- arxiv url: http://arxiv.org/abs/2503.05142v1
- Date: Fri, 07 Mar 2025 04:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:25.054301
- Title: RocketEval: Efficient Automated LLM Evaluation via Grading Checklist
- Title(参考訳): RocketEval: グレーディングチェックリストによる効率的なLLM評価
- Authors: Tianjun Wei, Wei Wen, Ruizhi Qiao, Xing Sun, Jianghong Ma,
- Abstract要約: 本稿では,RocketEval という軽量 LLM を判断に活用して,単純かつ再現性が高く,精度の高い自動評価手法を提案する。
自動評価ベンチマークであるMT-BenchとWildBenchを用いた実験により,RocketEvalは,Gemma-2-2Bを判定として使用する場合,ヒトの嗜好と高い相関(0.965)を達成できることがわかった。
- 参考スコア(独自算出の注目度): 32.66840523942929
- License:
- Abstract: Evaluating large language models (LLMs) in diverse and challenging scenarios is essential to align them with human preferences. To mitigate the prohibitive costs associated with human evaluations, utilizing a powerful LLM as a judge has emerged as a favored approach. Nevertheless, this methodology encounters several challenges, including substantial expenses, concerns regarding privacy and security, and reproducibility. In this paper, we propose a straightforward, replicable, and accurate automated evaluation method by leveraging a lightweight LLM as the judge, named RocketEval. Initially, we identify that the performance disparity between lightweight and powerful LLMs in evaluation tasks primarily stems from their ability to conduct comprehensive analyses, which is not easily enhanced through techniques such as chain-of-thought reasoning. By reframing the evaluation task as a multi-faceted Q&A using an instance-specific checklist, we demonstrate that the limited judgment accuracy of lightweight LLMs is largely attributes to high uncertainty and positional bias. To address these challenges, we introduce an automated evaluation process grounded in checklist grading, which is designed to accommodate a variety of scenarios and questions. This process encompasses the creation of checklists, the grading of these checklists by lightweight LLMs, and the reweighting of checklist items to align with the supervised annotations. Our experiments carried out on the automated evaluation benchmarks, MT-Bench and WildBench datasets, reveal that RocketEval, when using Gemma-2-2B as the judge, achieves a high correlation (0.965) with human preferences, which is comparable to GPT-4o. Moreover, RocketEval provides a cost reduction exceeding 50-fold for large-scale evaluation and comparison scenarios. Our code is available at https://github.com/Joinn99/RocketEval-ICLR .
- Abstract(参考訳): 大規模言語モデル(LLM)を多様で困難なシナリオで評価することは、それらを人間の好みに合わせるのに不可欠である。
人的評価に関連する禁止費用を軽減するため、審査員として強力なLCMを活用することが好ましいアプローチとして浮上した。
それにもかかわらず、この方法論は、かなりの費用、プライバシーとセキュリティに関する懸念、再現性など、いくつかの課題に直面している。
本稿では,RocketEval という軽量 LLM を判定として活用し,簡易かつ再現性が高く,かつ精度の高い自動評価手法を提案する。
当初,評価タスクにおける軽量LLMと強力LLMの性能格差は主に包括的分析を行う能力に起因しており,チェーン・オブ・シークレット・推論のような手法によって容易には強化されないことが判明した。
インスタンス固有のチェックリストを用いて、評価タスクを多面的Q&Aとして再検討することにより、軽量LCMの限られた判定精度が、高い不確実性と位置バイアスに起因することが証明された。
これらの課題に対処するために、さまざまなシナリオや疑問に対応するように設計されたチェックリストのグレーディングに基づく自動評価プロセスを導入する。
このプロセスは、チェックリストの作成、軽量LLMによるチェックリストのグレード、および教師付きアノテーションに合わせるためのチェックリスト項目の再重み付けを含む。
自動評価ベンチマークであるMT-BenchとWildBenchを用いた実験の結果,RocketEvalはGemma-2-2Bを審査員として使用する場合,GPT-4oに匹敵する人間の嗜好と高い相関(0.965)を達成できることがわかった。
さらにRocketEvalは、大規模評価と比較シナリオのために、50倍以上のコスト削減を提供する。
私たちのコードはhttps://github.com/Joinn99/RocketEval-ICLR で利用可能です。
関連論文リスト
- Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.06346155380305]
大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。
この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。
いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文 参考訳(メタデータ) (2025-01-24T17:01:14Z) - EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。
まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。
次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:09:08Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。