Fugu-MT 論文翻訳(概要): AIME: AI System Optimization via Multiple LLM Evaluators

論文の概要: AIME: AI System Optimization via Multiple LLM Evaluators

arxiv url: http://arxiv.org/abs/2410.03131v3
Date: Tue, 29 Oct 2024 02:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 03:36:45.958716
Title: AIME: AI System Optimization via Multiple LLM Evaluators
Title（参考訳）: AIME: 複数のLLM評価器によるAIシステムの最適化
Authors: Bhrij Patel, Souradip Chakraborty, Wesley A. Suttle, Mengdi Wang, Amrit Singh Bedi, Dinesh Manocha,
Abstract要約: AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
参考スコア（独自算出の注目度）: 79.03422337674664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based AI system optimization typically involves a feedback loop scheme where a single LLM generates an evaluation in natural language of the current output to improve the next iteration's output. However, in this work, we empirically demonstrate that for a practical and complex task (code generation) with multiple criteria to evaluate, utilizing only one LLM evaluator tends to let errors in generated code go undetected, thus leading to incorrect evaluations and ultimately suboptimal test case performance. Motivated by this failure case, we assume there exists an optimal evaluation policy that samples an evaluation between response and ground truth. We then theoretically prove that a linear combination of multiple evaluators can approximate this optimal policy. From this insight, we propose AI system optimization via Multiple LLM Evaluators (AIME). AIME is an evaluation protocol that utilizes multiple LLMs that each independently generate an evaluation on separate criteria and then combine them via concatenation. We provide an extensive empirical study showing AIME outperforming baseline methods in code generation tasks, with up to $62\%$ higher error detection rate and up to $16\%$ higher success rate than a single LLM evaluation protocol on LeetCodeHard and HumanEval datasets. We also show that the selection of the number of evaluators and which criteria to utilize is non-trivial as it can impact pact success rate by up to $12\%$.
Abstract（参考訳）: テキストベースのAIシステムの最適化は通常、1つのLLMが現在の出力の自然言語で評価を生成して次のイテレーションの出力を改善するフィードバックループスキームを含む。しかし,本研究では,複数の基準を持つ実用的かつ複雑なタスク(コード生成)に対して,LLM評価器を1つだけ利用すれば,生成したコードのエラーが検出されずに済む傾向があり,誤った評価と究極的には最適なテストケース性能が得られることを実証的に示す。この失敗に触発されて、反応と基底の真理の評価をサンプリングする最適な評価ポリシーが存在すると仮定する。そして、理論的には、複数の評価器の線形結合がこの最適方針を近似することができることを証明する。この知見から,複数LLM評価器(AIME)を用いたAIシステムの最適化を提案する。 AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおいて、AIMEがベースラインメソッドよりも優れた性能を示し、エラー検出率を最大6.2 %、成功率を最大16 %と、LeetCodeHardおよびHumanEvalデータセット上の単一のLCM評価プロトコルよりも高い性能を示す。また,評価者数の選択と利用基準は,パクト成功率に最大12.%の影響を及ぼす可能性があるため,非自明なものであることも示している。

関連論文リスト

Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。 Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。 BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文参考訳（メタデータ） (2025-02-10T06:49:29Z)
Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文参考訳（メタデータ） (2024-11-30T01:49:25Z)
ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文参考訳（メタデータ） (2024-10-09T17:14:50Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文参考訳（メタデータ） (2024-04-18T15:45:27Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。