Fugu-MT 論文翻訳(概要): TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning

論文の概要: TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning

arxiv url: http://arxiv.org/abs/2402.13125v1
Date: Tue, 20 Feb 2024 16:38:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 14:30:36.326352
Title: TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning
Title（参考訳）: treeeval: tree planningによる大規模言語モデルのベンチマークフリー評価
Authors: Xiang Li, Yunshi Lan and Chao Yang
Abstract要約: TreeEvalは、大規模言語モデル(LLM)のベンチマークフリー評価手法である。これにより、高性能なLLMが再現不可能な評価セッションをホストし、本質的にデータ漏洩を回避することができる。パラメータサイズの異なるモデルに対して,7ドルB,13ドルB,33ドルBを含む6ドルモデルを評価し,約45ドルの質問でAlpacaEval2.0との相関係数を最大化する。
参考スコア（独自算出の注目度）: 18.645806804670265
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, numerous new benchmarks have been established to evaluate the performance of large language models (LLMs) via either computing a holistic score or employing another LLM as a judge. However, these approaches suffer from data leakage due to the open access of the benchmark and inflexible evaluation process. To address this issue, we introduce $\textbf{TreeEval}$, a benchmark-free evaluation method for LLMs that let a high-performance LLM host an irreproducible evaluation session and essentially avoids the data leakage. Moreover, this LLM performs as an examiner to raise up a series of questions under a topic with a tree planing strategy, which considers the current evaluation status to decide the next question generation and ensures the completeness and efficiency of the evaluation process. We evaluate $6$ models of different parameter sizes, including $7$B, $13$B, and $33$B, and ultimately achieved the highest correlation coefficient with AlpacaEval2.0 using only around $45$ questions. We also conduct more analysis to show the robustness and reliability of TreeEval. Our code can be accessed via the provided https://github.com/Ashura5/TreeEval.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の性能を評価するために,総合的なスコアを計算したり,審査員として別のLSMを採用するなど,多くの新しいベンチマークが確立されている。しかし、これらのアプローチは、ベンチマークのオープンアクセスと非フレキシブルな評価プロセスによってデータ漏洩に悩まされる。この問題に対処するため,高速LLMが再現不可能な評価セッションをホストし,本質的にデータ漏洩を回避する,LCMのベンチマークフリー評価手法である$\textbf{TreeEval}$を紹介した。さらに、このLSMは、現在評価状況を考慮して次の質問生成を決定し、評価プロセスの完全性と効率を確実にするツリープランニング戦略を用いて、トピックの下で一連の質問を提起する検査者として機能する。パラメータサイズの異なるモデルに対して,7ドルB,13ドルB,33ドルBを含む6ドルモデルを評価し,45ドル程度でAlpacaEval2.0との相関係数を最大化した。 TreeEvalの堅牢性と信頼性を示すために、さらなる分析も行います。私たちのコードはhttps://github.com/Ashura5/TreeEval.comからアクセスできます。

関連論文リスト

TreeReview: A Dynamic Tree of Questions Framework for Deep and Efficient LLM-based Scientific Peer Review [14.57949988427571]
TreeReviewは、紙レビューを階層的で双方向の質問回答プロセスとしてモデル化する新しいフレームワークである。 ICLR と NeurIPS の会場から得られたベンチマークを構築し,本手法の完全なレビュー生成および実行可能なコメント生成タスクについて評価する。実験結果から、TreeReviewは、包括的な、深い、専門家によるレビューフィードバックを提供することで、強力なベースラインを上回ります。
論文参考訳（メタデータ） (2025-06-09T11:07:55Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees [69.96560215277285]
異なる弱みのプロファイリング法を比較するための定量的評価スイートを紹介する。 EvalTreeはベースラインの弱点プロファイリング法より優れていることを示す。コードと、EvalTreeによって構築された機能ツリーをインタラクティブに探索できるインターフェースをリリースしています。
論文参考訳（メタデータ） (2025-03-11T21:12:48Z)
SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search [10.718560472954644]
イントロスペクティブモンテカルロ木探索(Introspective Monte Carlo Tree Search, I-MCTS)は、イントロスペクティブプロセスを通じてツリーノードを反復的に拡張する新しいアプローチである。我々は,各ノードの解の直接評価を容易にするために,LLM(Large Language Model)ベースの値モデルを統合する。当社のアプローチでは,強力なオープンソースAutoMLエージェントと比較して,パフォーマンスが6%向上している。
論文参考訳（メタデータ） (2025-02-20T16:19:09Z)
MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation [17.432401371613903]
本稿では,コード正確性評価のための資源効率の高いシステム2思考フレームワークを提案する。 MCTS-Judgeはモンテカルロ木探索を用いて問題を単純かつ多視点的な評価に分解する。高精度で単体テストレベルの報酬メカニズムは、大規模言語モデルにライン・バイ・ライン分析の実行を促す。
論文参考訳（メタデータ） (2025-02-18T02:55:48Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
$\forall$uto$\exists$$\lor\!\land$L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
$forall$uto$exists$$$lor!land$Lは、大言語モデル(LLM)を評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-11T00:56:37Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。典型的資源の5～15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文参考訳（メタデータ） (2024-07-01T02:20:28Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。