論文の概要: AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment
- arxiv url: http://arxiv.org/abs/2510.22593v1
- Date: Sun, 26 Oct 2025 09:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.257102
- Title: AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment
- Title(参考訳): AutoBench: 相互ピアアセスメントによるLCM評価の自動化
- Authors: Dario Loi, Elena Maria Muià, Federico Siciliano, Giovanni Trappolini, Vincenzo Crisà, Peter Kruger, Fabrizio Silvestri,
- Abstract要約: AutoBenchは、大規模言語モデル(LLM)を評価するための、完全に自動化され、自己持続的なフレームワークである
本稿では,eZecute S.R.L によるオープンソースプロジェクトとして開発された AutoBench 方法論の厳密な科学的検証を行う。
- 参考スコア(独自算出の注目度): 12.9569411072262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AutoBench, a fully automated and self-sustaining framework for evaluating Large Language Models (LLMs) through reciprocal peer assessment. This paper provides a rigorous scientific validation of the AutoBench methodology, originally developed as an open-source project by eZecute S.R.L.. Unlike static benchmarks that suffer from test-set contamination and limited adaptability, AutoBench dynamically generates novel evaluation tasks while models alternately serve as question generators, contestants, and judges across diverse domains. An iterative weighting mechanism amplifies the influence of consistently reliable evaluators, aggregating peer judgments into consensus-based rankings that reflect collective model agreement. Our experiments demonstrate strong correlations with established benchmarks including MMLU-Pro and GPQA (respectively 78\% and 63\%), validating this peer-driven evaluation paradigm. The multi-judge design significantly outperforms single-judge baselines, confirming that distributed evaluation produces more robust and human-consistent assessments. AutoBench offers a scalable, contamination-resistant alternative to static benchmarks for the continuous evaluation of evolving language models.
- Abstract(参考訳): 本稿では,LLM(Large Language Models)を相互に評価して評価するための,完全自動化および自己持続的なフレームワークであるAutoBenchを紹介する。
本稿では,eZecute S.R.L.によるオープンソースプロジェクトとして開発されたAutoBench方法論の厳密な科学的検証を行う。
テストセットの汚染と限定的な適応性に苦しむ静的ベンチマークとは異なり、AutoBenchは動的に新しい評価タスクを生成し、モデルは質問生成器、競合者、およびさまざまな領域の裁判官として交互に機能する。
反復重み付け機構は、一貫した信頼性のある評価者の影響力を増幅し、ピア判断を集合モデル合意を反映したコンセンサスに基づくランキングに集約する。
実験では,MMLU-Pro やGPQA などの既存のベンチマークと強い相関関係を示し,このピア駆動評価パラダイムを検証した。
マルチジャッジ設計は単一ジャッジベースラインを著しく上回り、分散評価がより堅牢で一貫性のある評価をもたらすことを確認した。
AutoBenchは、進化する言語モデルの継続的な評価のための静的ベンチマークに代わる、スケーラブルで汚染に強い代替手段を提供する。
関連論文リスト
- Multi-Agent Debate for LLM Judges with Adaptive Stability Detection [46.67172123607961]
エージェントが協調して判断し、反復的に応答を洗練するマルチエージェントの議論判断フレームワークを提案する。
議論の過程を数学的に定式化し、エージェントの相互作用を分析し、議論が静的アンサンブルと比較して正確さを増幅することを証明する。
複数のベンチマークやモデルを用いた実験により,本フレームワークは計算効率を維持しつつ,多数決よりも判定精度を向上させることが示された。
論文 参考訳(メタデータ) (2025-10-14T16:30:30Z) - Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Human-Calibrated Automated Testing and Validation of Generative Language Models [3.2855317710497633]
本稿では,ジェネレーティブ言語モデル(GLM)の評価と検証のための包括的枠組みを提案する。
銀行などの高額な領域に展開される検索・拡張世代(RAG)システムに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-25T13:53:36Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。