論文の概要: TreeEval: Benchmark-Free Evaluation of Large Language Models through
Tree Planning
- arxiv url: http://arxiv.org/abs/2402.13125v1
- Date: Tue, 20 Feb 2024 16:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:30:36.326352
- Title: TreeEval: Benchmark-Free Evaluation of Large Language Models through
Tree Planning
- Title(参考訳): treeeval: tree planningによる大規模言語モデルのベンチマークフリー評価
- Authors: Xiang Li, Yunshi Lan and Chao Yang
- Abstract要約: TreeEvalは、大規模言語モデル(LLM)のベンチマークフリー評価手法である。
これにより、高性能なLLMが再現不可能な評価セッションをホストし、本質的にデータ漏洩を回避することができる。
パラメータサイズの異なるモデルに対して,7ドルB,13ドルB,33ドルBを含む6ドルモデルを評価し,約45ドルの質問でAlpacaEval2.0との相関係数を最大化する。
- 参考スコア(独自算出の注目度): 18.645806804670265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, numerous new benchmarks have been established to evaluate the
performance of large language models (LLMs) via either computing a holistic
score or employing another LLM as a judge. However, these approaches suffer
from data leakage due to the open access of the benchmark and inflexible
evaluation process. To address this issue, we introduce $\textbf{TreeEval}$, a
benchmark-free evaluation method for LLMs that let a high-performance LLM host
an irreproducible evaluation session and essentially avoids the data leakage.
Moreover, this LLM performs as an examiner to raise up a series of questions
under a topic with a tree planing strategy, which considers the current
evaluation status to decide the next question generation and ensures the
completeness and efficiency of the evaluation process. We evaluate $6$ models
of different parameter sizes, including $7$B, $13$B, and $33$B, and ultimately
achieved the highest correlation coefficient with AlpacaEval2.0 using only
around $45$ questions. We also conduct more analysis to show the robustness and
reliability of TreeEval. Our code can be accessed via the provided
https://github.com/Ashura5/TreeEval.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の性能を評価するために,総合的なスコアを計算したり,審査員として別のLSMを採用するなど,多くの新しいベンチマークが確立されている。
しかし、これらのアプローチは、ベンチマークのオープンアクセスと非フレキシブルな評価プロセスによってデータ漏洩に悩まされる。
この問題に対処するため,高速LLMが再現不可能な評価セッションをホストし,本質的にデータ漏洩を回避する,LCMのベンチマークフリー評価手法である$\textbf{TreeEval}$を紹介した。
さらに、このLSMは、現在評価状況を考慮して次の質問生成を決定し、評価プロセスの完全性と効率を確実にするツリープランニング戦略を用いて、トピックの下で一連の質問を提起する検査者として機能する。
パラメータサイズの異なるモデルに対して,7ドルB,13ドルB,33ドルBを含む6ドルモデルを評価し,45ドル程度でAlpacaEval2.0との相関係数を最大化した。
TreeEvalの堅牢性と信頼性を示すために、さらなる分析も行います。
私たちのコードはhttps://github.com/Ashura5/TreeEval.comからアクセスできます。
関連論文リスト
- $\forall$uto$\exists$$\lor\!\land$L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
$forall$uto$exists$$$lor!land$Lは、大言語モデル(LLM)を評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-11T00:56:37Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。