論文の概要: MACEval: A Multi-Agent Continual Evaluation Network for Large Models
- arxiv url: http://arxiv.org/abs/2511.09139v1
- Date: Thu, 13 Nov 2025 01:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.430658
- Title: MACEval: A Multi-Agent Continual Evaluation Network for Large Models
- Title(参考訳): MACEval: 大規模モデルのためのマルチエージェント連続評価ネットワーク
- Authors: Zijian Chen, Yuze Sun, Yuan Tian, Wenjun Zhang, Guangtao Zhai,
- Abstract要約: 大規模モデルの動的評価のためのマルチエージェント連続評価ネットワークであるMACEvalを紹介する。
MACEvalは,(1)人間フリーで自動で,(2)エージェント間判定による退屈な結果処理を緩和し,(2)効率よく,経済的に,相当量のデータとオーバーヘッドを減らして,関連するベンチマークと同じような結果が得られること,(3)カスタマイズされた評価トポロジによる既存のベンチマークの柔軟性,拡張性,マイグレーション,統合化を実証する。
- 参考スコア(独自算出の注目度): 52.629762680215315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hundreds of benchmarks dedicated to evaluating large models from multiple perspectives have been presented over the past few years. Albeit substantial efforts, most of them remain closed-ended and are prone to overfitting due to the potential data contamination in the ever-growing training corpus of large models, thereby undermining the credibility of the evaluation. Moreover, the increasing scale and scope of current benchmarks with transient metrics, as well as the heavily human-dependent curation procedure, pose significant challenges for timely maintenance and adaptation to gauge the advancing capabilities of large models. In this paper, we introduce MACEval, a \Multi-Agent Continual Evaluation network for dynamic evaluation of large models, and define a new set of metrics to quantify performance longitudinally and sustainably. MACEval adopts an interactive and autonomous evaluation mode that employs role assignment, in-process data generation, and evaluation routing through a cascaded agent network. Extensive experiments on 9 open-ended tasks with 23 participating large models demonstrate that MACEval is (1) human-free and automatic, mitigating laborious result processing with inter-agent judgment guided; (2) efficient and economical, reducing a considerable amount of data and overhead to obtain similar results compared to related benchmarks; and (3) flexible and scalable, migrating or integrating existing benchmarks via customized evaluation topologies. We hope that MACEval can broaden future directions of large model evaluation.
- Abstract(参考訳): 大規模モデルを複数の視点から評価するためのベンチマークが、過去数年間にわたって何百も発表されてきた。
実質的な努力にもかかわらず、そのほとんどは閉鎖的であり、大規模モデルの継続的なトレーニングコーパスにおけるデータ汚染により過度に適合する傾向にあるため、評価の信頼性を損なう。
さらに、過渡的メトリクスによる現在のベンチマークの規模とスコープの増大と、非常に人間に依存したキュレーション手順は、大規模モデルの進行能力を評価するための時間的メンテナンスと適応に重大な課題を提起する。
本稿では,大規模モデルの動的評価を行うためのMulti-Agent連続評価ネットワークであるMACEvalを紹介する。
MACEvalは、ロール割り当て、プロセス内データ生成、カスケードエージェントネットワークによる評価ルーティングを利用する、インタラクティブで自律的な評価モードを採用している。
大規模モデル23のオープンエンドタスク9つの実験により,MACEvalは,(1)人間フリーで自動で,(2)エージェント間判定による退屈な結果処理を緩和し,(2)効率よく,経済的に,大量のデータとオーバーヘッドを削減し,関連するベンチマークと比較し,同様の結果が得られること,(3)カスタマイズされた評価トポロジによる既存のベンチマークの柔軟性,拡張性,移行性,統合性を示す。
MACEvalが大規模モデル評価の今後の方向性を広げることを期待している。
関連論文リスト
- Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。