論文の概要: MACEval: A Multi-Agent Continual Evaluation Network for Large Models
- arxiv url: http://arxiv.org/abs/2511.09139v1
- Date: Thu, 13 Nov 2025 01:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.430658
- Title: MACEval: A Multi-Agent Continual Evaluation Network for Large Models
- Title(参考訳): MACEval: 大規模モデルのためのマルチエージェント連続評価ネットワーク
- Authors: Zijian Chen, Yuze Sun, Yuan Tian, Wenjun Zhang, Guangtao Zhai,
- Abstract要約: 大規模モデルの動的評価のためのマルチエージェント連続評価ネットワークであるMACEvalを紹介する。
MACEvalは,(1)人間フリーで自動で,(2)エージェント間判定による退屈な結果処理を緩和し,(2)効率よく,経済的に,相当量のデータとオーバーヘッドを減らして,関連するベンチマークと同じような結果が得られること,(3)カスタマイズされた評価トポロジによる既存のベンチマークの柔軟性,拡張性,マイグレーション,統合化を実証する。
- 参考スコア(独自算出の注目度): 52.629762680215315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hundreds of benchmarks dedicated to evaluating large models from multiple perspectives have been presented over the past few years. Albeit substantial efforts, most of them remain closed-ended and are prone to overfitting due to the potential data contamination in the ever-growing training corpus of large models, thereby undermining the credibility of the evaluation. Moreover, the increasing scale and scope of current benchmarks with transient metrics, as well as the heavily human-dependent curation procedure, pose significant challenges for timely maintenance and adaptation to gauge the advancing capabilities of large models. In this paper, we introduce MACEval, a \Multi-Agent Continual Evaluation network for dynamic evaluation of large models, and define a new set of metrics to quantify performance longitudinally and sustainably. MACEval adopts an interactive and autonomous evaluation mode that employs role assignment, in-process data generation, and evaluation routing through a cascaded agent network. Extensive experiments on 9 open-ended tasks with 23 participating large models demonstrate that MACEval is (1) human-free and automatic, mitigating laborious result processing with inter-agent judgment guided; (2) efficient and economical, reducing a considerable amount of data and overhead to obtain similar results compared to related benchmarks; and (3) flexible and scalable, migrating or integrating existing benchmarks via customized evaluation topologies. We hope that MACEval can broaden future directions of large model evaluation.
- Abstract(参考訳): 大規模モデルを複数の視点から評価するためのベンチマークが、過去数年間にわたって何百も発表されてきた。
実質的な努力にもかかわらず、そのほとんどは閉鎖的であり、大規模モデルの継続的なトレーニングコーパスにおけるデータ汚染により過度に適合する傾向にあるため、評価の信頼性を損なう。
さらに、過渡的メトリクスによる現在のベンチマークの規模とスコープの増大と、非常に人間に依存したキュレーション手順は、大規模モデルの進行能力を評価するための時間的メンテナンスと適応に重大な課題を提起する。
本稿では,大規模モデルの動的評価を行うためのMulti-Agent連続評価ネットワークであるMACEvalを紹介する。
MACEvalは、ロール割り当て、プロセス内データ生成、カスケードエージェントネットワークによる評価ルーティングを利用する、インタラクティブで自律的な評価モードを採用している。
大規模モデル23のオープンエンドタスク9つの実験により,MACEvalは,(1)人間フリーで自動で,(2)エージェント間判定による退屈な結果処理を緩和し,(2)効率よく,経済的に,大量のデータとオーバーヘッドを削減し,関連するベンチマークと比較し,同様の結果が得られること,(3)カスタマイズされた評価トポロジによる既存のベンチマークの柔軟性,拡張性,移行性,統合性を示す。
MACEvalが大規模モデル評価の今後の方向性を広げることを期待している。
関連論文リスト
- Analysis of Transferability Estimation Metrics for Surgical Phase Recognition [3.3285108719932555]
微調整された事前学習モデルは現代の機械学習の基盤となり、限られたラベル付きデータで実践者がハイパフォーマンスを達成できるようになった。
専門的アノテーションが特に時間がかかり費用がかかる外科的ビデオ解析では、下流タスクに最適な事前学習モデルを特定することが重要かつ困難である。
我々は,2つの多様なデータセット上で,LogME,H-Score,TransRateの3つの代表的な指標の総合ベンチマークを行った。
論文 参考訳(メタデータ) (2025-08-22T18:05:33Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Operationalizing Specifications, In Addition to Test Sets for Evaluating
Constrained Generative Models [17.914521288548844]
生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。
我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
論文 参考訳(メタデータ) (2022-11-19T06:39:43Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。