Fugu-MT 論文翻訳(概要): Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

論文の概要: Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

arxiv url: http://arxiv.org/abs/2401.16788v1
Date: Tue, 30 Jan 2024 07:03:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 15:57:18.903901
Title: Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate
Title（参考訳）: 大規模言語モデルは評価に信頼できるのか? エージェント・ディベートによるLCMのスケーラブルなメタ評価
Authors: Steffi Chern, Ethan Chern, Graham Neubig, Pengfei Liu
Abstract要約: エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
参考スコア（独自算出の注目度）: 74.06294042304415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the utility of Large Language Models (LLMs) across a wide range of tasks and scenarios, developing a method for reliably evaluating LLMs across varied contexts continues to be challenging. Modern evaluation approaches often use LLMs to assess responses generated by LLMs. However, the meta-evaluation conducted to assess the effectiveness of these LLMs as evaluators is typically constrained by the coverage of existing benchmarks or requires extensive human annotation. This underscores the urgency of methods for scalable meta-evaluation that can effectively, reliably, and efficiently evaluate the performance of LLMs as evaluators across diverse tasks and scenarios, particularly in potentially new, user-defined scenarios. To fill this gap, we propose ScaleEval, an agent-debate-assisted meta-evaluation framework that leverages the capabilities of multiple communicative LLM agents. This framework supports multi-round discussions to assist human annotators in discerning the most capable LLMs as evaluators, which significantly eases their workload in cases that used to require large-scale annotations during meta-evaluation. We release the code for our framework, which is publicly available at: \url{https://github.com/GAIR-NLP/scaleeval}.
Abstract（参考訳）: 幅広いタスクやシナリオにまたがるLLM(Large Language Models)の有用性にもかかわらず、さまざまなコンテキストにまたがるLSMを確実に評価する手法を開発することは、依然として困難である。現代の評価手法は、LLMが生成した応答を評価するためにしばしばLLMを使用する。しかしながら、これらのLCMの有効性を評価対象として評価するためのメタ評価は、通常、既存のベンチマークのカバレッジによって制約される。これは、様々なタスクやシナリオ、特に潜在的に新しいユーザ定義シナリオにおいて、LCMのパフォーマンスを効果的に、確実に、かつ効率的に評価できるスケーラブルなメタ評価のためのメソッドの緊急性を強調します。このギャップを埋めるために,複数のLLMエージェントの能力を活用する,エージェント記述型メタ評価フレームワークであるScaleEvalを提案する。このフレームワークは、マルチラウンドの議論をサポートし、ヒトのアノテータが最も有能なLLMを評価対象とすることで、メタ評価中に大規模なアノテーションを必要とする場合の作業負荷を大幅に軽減する。フレームワークのコードを公開しています。 \url{https://github.com/GAIR-NLP/scaleeval}。

関連論文リスト

CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文参考訳（メタデータ） (2023-12-31T22:21:36Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Beyond Static Datasets: A Deep Interaction Approach to LLM Evaluation [16.73300162869746]
大規模言語モデル(LLM)は、様々な現実世界のタスクで進歩している。既存の評価手法は主に教師付き信号に基づくものである。本稿では, ディープインタラクションに基づくLLM評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T15:00:41Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。