論文の概要: EffiEval: Efficient and Generalizable Model Evaluation via Capability Coverage Maximization
- arxiv url: http://arxiv.org/abs/2508.09662v1
- Date: Wed, 13 Aug 2025 09:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.844681
- Title: EffiEval: Efficient and Generalizable Model Evaluation via Capability Coverage Maximization
- Title(参考訳): EffiEval: 機能カバレッジの最大化による効率的で一般化可能なモデル評価
- Authors: Yaoning Wang, Jiahao Ying, Yixin Cao, Yubo Ma, Yugang Jiang,
- Abstract要約: EffiEvalは、高い評価信頼性を維持しながらデータの冗長性に対処する、効率的なベンチマークのためのトレーニング不要のアプローチである。
提案手法は, 高品質評価において, 代表性, 公平性, 一般化性の3つの重要な基準を満たすように設計されている。
EffiEvalは、元のデータのごく一部しか使用せず、フルデータセット評価と強いランキング整合性を実現する。
- 参考スコア(独自算出の注目度): 48.27039405295434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) and the development of increasingly large and diverse evaluation benchmarks have introduced substantial computational challenges for model assessment. In this paper, we present EffiEval, a training-free approach for efficient benchmarking that effectively addresses data redundancy while maintaining high evaluation reliability. Our method is specifically designed to meet three key criteria for high-quality evaluation: representativeness, by ensuring comprehensive coverage of model capabilities; fairness, by remaining independent of model performance during sample selection to avoid bias; and generalizability, by enabling flexible transfer across datasets and model families without reliance on large-scale evaluation data. Unlike traditional methods that rely on absolute performance or require extensive evaluation data, our approach adaptively selects high-quality representative subsets based on the Model Utility Index (MUI). Extensive experiments on multiple public benchmarks and diverse LLMs demonstrate that EffiEval achieves strong ranking consistency with full-dataset evaluation using only a small fraction of the original data. Furthermore, our method is flexible and scalable in size, allowing users to balance evaluation efficiency and representativeness according to specific needs. Overall, EffiEval provides a practical and generalizable solution for reliable, fair, and efficient evaluation in the era of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩と、大規模で多様な評価ベンチマークの開発により、モデルアセスメントに対するかなりの計算課題がもたらされた。
本稿では,高評価信頼性を維持しながらデータの冗長性を効果的に処理する,効率的なベンチマークのためのトレーニング不要な手法であるEffiEvalを提案する。
提案手法は, モデル能力の包括的カバレッジを確保することによる代表性, サンプル選択時のモデル性能の独立性を保ってバイアスを回避することによる公平性, 大規模評価データに依存することなく, データセットやモデルファミリー間の柔軟な転送を可能にすることによる一般化性, という, 高品質評価の3つの重要な基準を満たすように設計されている。
絶対的なパフォーマンスに依存したり、広範囲な評価データを必要とする従来の手法とは異なり、我々の手法はモデルユーティリティ指標(MUI)に基づいて、高品質な代表サブセットを適応的に選択する。
複数の公開ベンチマークと多種多様なLCMに関する大規模な実験により、EffiEvalは、元のデータのごく一部しか使用せず、フルデータセットの評価と強いランキング整合性を達成することを示した。
さらに,本手法は柔軟で拡張性があり,ユーザが特定のニーズに応じて評価効率と代表性のバランスをとることができる。
全体として、EffiEvalはLLMの時代における信頼性、公正、効率的な評価のための実用的で一般化可能なソリューションを提供する。
関連論文リスト
- Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。
絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。
本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文 参考訳(メタデータ) (2025-03-18T15:40:18Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - A Distributed Collaborative Retrieval Framework Excelling in All Queries and Corpora based on Zero-shot Rank-Oriented Automatic Evaluation [46.33857318525812]
分散協調検索フレームワーク(DCRF)を提案する。
様々な検索モデルを統合システムに統合し、ユーザのクエリに対して最適な結果を動的に選択する。
RankGPTやListT5のような効果的なリストワイドメソッドに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-12-16T14:55:57Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures [28.130008435669865]
我々はMixEval-Xを紹介した。これは、様々な入力と出力のモダリティで評価を最適化するように設計された、世界初の実世界ベンチマークである。
実世界のタスク分布を再構築するために,マルチモーダルベンチマークと適応修正パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T16:52:28Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。