論文の概要: AutoEvoEval: An Automated Framework for Evolving Close-Ended LLM Evaluation Data
- arxiv url: http://arxiv.org/abs/2506.23735v1
- Date: Mon, 30 Jun 2025 11:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.033013
- Title: AutoEvoEval: An Automated Framework for Evolving Close-Ended LLM Evaluation Data
- Title(参考訳): AutoEvoEval: 閉じたLLM評価データを進化させるためのフレームワーク
- Authors: JiaRu Wu, Mingwei Liu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
既存の評価ベンチマークは、しばしば静的で、その堅牢性と一般化を十分に評価するのに不十分である。
本稿では,質問応答などのクローズドなタスクのための進化型評価フレームワークであるAutoEvoEvalを提案する。
- 参考スコア(独自算出の注目度): 0.6278186810520364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable performance on various tasks, but existing evaluation benchmarks are often static and insufficient to fully assess their robustness and generalization in realistic scenarios. Prior work using evolutionary or adversarial data augmentation has improved evaluation diversity but lacks systematic control over perturbation types and multi-step complexity, limiting comprehensive robustness analysis. To address these gaps, we propose AutoEvoEval, an evolution-based evaluation framework for close-ended tasks such as multi-choice question answering. AutoEvoEval introduces 22 interpretable atomic evolution operations and supports multi-round compositions, enabling controlled generation of diverse, challenging, and realistic test samples. We conduct extensive experiments addressing four research questions on a broad set of open- and closed-source LLMs. Our results show that atomic operations cause an average accuracy drop of 7.283\%, with structure-disrupting or misleading semantic edits causing the largest declines. Model sensitivities vary significantly for the same perturbation, and combining multiple evolution steps amplifies adversarial effects by up to 52.932\%. These findings suggest current benchmarks may overestimate true model generalization and emphasize the need for evolution-aware robustness evaluation. Code and resources are available at: https://github.com/SYSUSELab/AutoEvoEval.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示してきたが、既存の評価ベンチマークはしばしば静的で不十分であり、現実的なシナリオにおいてその堅牢性と一般化を十分に評価することができない。
進化的あるいは敵対的なデータ拡張を用いた以前の研究は、評価の多様性を改善したが、摂動タイプや多段階の複雑さに対する体系的な制御が欠如しており、包括的な堅牢性分析が制限されている。
これらのギャップに対処するため,マルチ選択質問応答などのクローズドなタスクのための進化型評価フレームワークであるAutoEvoEvalを提案する。
AutoEvoEvalは22の解釈可能な原子の進化操作を導入し、多体合成をサポートし、多様な、挑戦的で現実的なテストサンプルを制御できる。
オープンおよびクローズドソース LLM の幅広いセットについて,4つの研究課題に対処する広範囲な実験を行った。
その結果,原子操作は平均精度が7.283\%低下し,構造破壊や誤解を招くセマンティック編集が最大の低下を引き起こすことがわかった。
モデル感度は、同じ摂動に対して大きく異なり、複数の進化ステップを組み合わせることで、最大52.932\%の逆効果が増幅される。
これらの結果は、現在のベンチマークが真のモデル一般化を過大評価し、進化を意識したロバストネス評価の必要性を強調することを示唆している。
コードとリソースは、https://github.com/SYSUSELab/AutoEvoEval.comで入手できる。
関連論文リスト
- Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour [26.04296415316974]
AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISは、事前訓練されたマルチエージェントポリシーに対して、理解不能な因果説明を生成する。
5LLMの10シナリオにわたる自律走行におけるAXISの評価を行った。
論文 参考訳(メタデータ) (2025-05-23T12:19:18Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Beyond Words: How Large Language Models Perform in Quantitative Management Problem-Solving [0.0]
本研究では,ゼロショット環境での量的管理決定問題に取り組む際に,Large Language Models (LLM) がどのように機能するかを検討する。
私たちは、20の異なる管理シナリオにわたる5つの主要なモデルによって生成された900のレスポンスを生成しました。
論文 参考訳(メタデータ) (2025-02-23T12:39:39Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation [15.895295957106772]
大規模言語モデル(LLMs)を評価するためのID誘発即時合成フレームワークを提案する。
我々のデータ合成フレームワークは、幅と特異性の両方を優先し、LLMの能力を包括的に評価するプロンプトを生成することができる。
我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。
論文 参考訳(メタデータ) (2024-09-27T16:29:12Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。