Fugu-MT 論文翻訳(概要): RocketEval: Efficient Automated LLM Evaluation via Grading Checklist

論文の概要: RocketEval: Efficient Automated LLM Evaluation via Grading Checklist

arxiv url: http://arxiv.org/abs/2503.05142v1
Date: Fri, 07 Mar 2025 04:51:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.879228
Title: RocketEval: Efficient Automated LLM Evaluation via Grading Checklist
Title（参考訳）: RocketEval: グレーディングチェックリストによる効率的なLLM評価
Authors: Tianjun Wei, Wei Wen, Ruizhi Qiao, Xing Sun, Jianghong Ma,
Abstract要約: 本稿では,RocketEval という軽量 LLM を判断に活用して,単純かつ再現性が高く,精度の高い自動評価手法を提案する。自動評価ベンチマークであるMT-BenchとWildBenchを用いた実験により,RocketEvalは,Gemma-2-2Bを判定として使用する場合,ヒトの嗜好と高い相関(0.965)を達成できることがわかった。
参考スコア（独自算出の注目度）: 32.66840523942929
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Evaluating large language models (LLMs) in diverse and challenging scenarios is essential to align them with human preferences. To mitigate the prohibitive costs associated with human evaluations, utilizing a powerful LLM as a judge has emerged as a favored approach. Nevertheless, this methodology encounters several challenges, including substantial expenses, concerns regarding privacy and security, and reproducibility. In this paper, we propose a straightforward, replicable, and accurate automated evaluation method by leveraging a lightweight LLM as the judge, named RocketEval. Initially, we identify that the performance disparity between lightweight and powerful LLMs in evaluation tasks primarily stems from their ability to conduct comprehensive analyses, which is not easily enhanced through techniques such as chain-of-thought reasoning. By reframing the evaluation task as a multi-faceted Q&A using an instance-specific checklist, we demonstrate that the limited judgment accuracy of lightweight LLMs is largely attributes to high uncertainty and positional bias. To address these challenges, we introduce an automated evaluation process grounded in checklist grading, which is designed to accommodate a variety of scenarios and questions. This process encompasses the creation of checklists, the grading of these checklists by lightweight LLMs, and the reweighting of checklist items to align with the supervised annotations. Our experiments carried out on the automated evaluation benchmarks, MT-Bench and WildBench datasets, reveal that RocketEval, when using Gemma-2-2B as the judge, achieves a high correlation (0.965) with human preferences, which is comparable to GPT-4o. Moreover, RocketEval provides a cost reduction exceeding 50-fold for large-scale evaluation and comparison scenarios. Our code is available at https://github.com/Joinn99/RocketEval-ICLR .
Abstract（参考訳）: 大規模言語モデル(LLM)を多様で困難なシナリオで評価することは、それらを人間の好みに合わせるのに不可欠である。人的評価に関連する禁止費用を軽減するため、審査員として強力なLCMを活用することが好ましいアプローチとして浮上した。それにもかかわらず、この方法論は、かなりの費用、プライバシーとセキュリティに関する懸念、再現性など、いくつかの課題に直面している。本稿では,RocketEval という軽量 LLM を判定として活用し,簡易かつ再現性が高く,かつ精度の高い自動評価手法を提案する。当初,評価タスクにおける軽量LLMと強力LLMの性能格差は主に包括的分析を行う能力に起因しており,チェーン・オブ・シークレット・推論のような手法によって容易には強化されないことが判明した。インスタンス固有のチェックリストを用いて、評価タスクを多面的Q&Aとして再検討することにより、軽量LCMの限られた判定精度が、高い不確実性と位置バイアスに起因することが証明された。これらの課題に対処するために、さまざまなシナリオや疑問に対応するように設計されたチェックリストのグレーディングに基づく自動評価プロセスを導入する。このプロセスは、チェックリストの作成、軽量LLMによるチェックリストのグレード、および教師付きアノテーションに合わせるためのチェックリスト項目の再重み付けを含む。自動評価ベンチマークであるMT-BenchとWildBenchを用いた実験の結果,RocketEvalはGemma-2-2Bを審査員として使用する場合,GPT-4oに匹敵する人間の嗜好と高い相関(0.965)を達成できることがわかった。さらにRocketEvalは、大規模評価と比較シナリオのために、50倍以上のコスト削減を提供する。私たちのコードはhttps://github.com/Joinn99/RocketEval-ICLR で利用可能です。

関連論文リスト

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.06346155380305]
大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文参考訳（メタデータ） (2025-01-24T17:01:14Z)
EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-31T03:56:17Z)
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文参考訳（メタデータ） (2024-10-04T17:09:08Z)
Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T06:19:47Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文参考訳（メタデータ） (2024-05-30T17:19:19Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。 MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文参考訳（メタデータ） (2024-04-10T01:26:24Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。