論文の概要: Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap
- arxiv url: http://arxiv.org/abs/2508.18646v1
- Date: Tue, 26 Aug 2025 03:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.665282
- Title: Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap
- Title(参考訳): ベンチマークを超えて: 人為的かつ価値指向のロードマップによるLLMの評価
- Authors: Jun Wang, Ninglun Gu, Kailai Zhang, Zijiao Zhang, Yelun Bao, Jin Yang, Xu Yin, Liwei Liu, Yihuan Liu, Pengyong Li, Gary G. Yen, Junchi Yan,
- Abstract要約: 本調査では,人間の知能のレンズを通して人為的評価パラダイムを導入する。
実践的な価値を得るために、経済の生存可能性、社会的影響、倫理的整合性、環境持続可能性を評価する価値指向評価(VQ)フレームワークを開拓した。
- 参考スコア(独自算出の注目度): 44.608160256874726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For Large Language Models (LLMs), a disconnect persists between benchmark performance and real-world utility. Current evaluation frameworks remain fragmented, prioritizing technical metrics while neglecting holistic assessment for deployment. This survey introduces an anthropomorphic evaluation paradigm through the lens of human intelligence, proposing a novel three-dimensional taxonomy: Intelligence Quotient (IQ)-General Intelligence for foundational capacity, Emotional Quotient (EQ)-Alignment Ability for value-based interactions, and Professional Quotient (PQ)-Professional Expertise for specialized proficiency. For practical value, we pioneer a Value-oriented Evaluation (VQ) framework assessing economic viability, social impact, ethical alignment, and environmental sustainability. Our modular architecture integrates six components with an implementation roadmap. Through analysis of 200+ benchmarks, we identify key challenges including dynamic assessment needs and interpretability gaps. It provides actionable guidance for developing LLMs that are technically proficient, contextually relevant, and ethically sound. We maintain a curated repository of open-source evaluation resources at: https://github.com/onejune2018/Awesome-LLM-Eval.
- Abstract(参考訳): LLM(Large Language Models)では、ベンチマークパフォーマンスと実世界のユーティリティとの間の切断が持続する。
現在の評価フレームワークは断片的であり、デプロイメントの全体的評価を無視しながら、技術的メトリクスを優先している。
本調査では,人間知能のレンズを通して人為的評価パラダイムを導入し,新しい3次元分類法を提案する。知能クレオティエンス(IQ)-基本能力の一般知能,感情的クレオティエンス(EQ)-アライメント能力,専門能力の専門的クレオティエンス(PQ)-専門的専門家。
実践的な価値を得るために、経済の生存可能性、社会的影響、倫理的整合性、環境持続可能性を評価する価値指向評価(VQ)フレームワークを開拓した。
モジュールアーキテクチャは6つのコンポーネントと実装ロードマップを統合しています。
200以上のベンチマークの分析を通じて、動的アセスメントのニーズや解釈可能性のギャップを含む重要な課題を特定する。
技術的に熟練し、文脈的に関連があり、倫理的に健全なLSMを開発するための実用的なガイダンスを提供する。
https://github.com/onejune2018/Awesome-LLM-Eval。
関連論文リスト
- EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文 参考訳(メタデータ) (2025-06-05T17:44:12Z) - MEQA: A Meta-Evaluation Framework for Question & Answer LLM Benchmarks [0.0]
質問と回答(QA)ベンチマークのメタ評価のためのフレームワークであるMEQAを提案する。
我々は,人間とLLM評価器を用いたサイバーセキュリティベンチマークにおいて,この手法を実証する。
私たちは、強力な防御ツールとセキュリティ脅威として、AIモデルの二重性によるテストドメインの選択を動機付けています。
論文 参考訳(メタデータ) (2025-04-18T19:01:53Z) - A Comprehensive Survey of Action Quality Assessment: Method and Benchmark [25.694556140797832]
行動品質評価(AQA)は、人間の行動の質を定量的に評価し、人間の判断におけるバイアスを減らす自動評価を提供する。
近年のAQAの進歩は革新的手法を導入しているが、類似の手法は異なる領域にまたがることが多い。
統一されたベンチマークと限定的な計算比較の欠如は、AQAアプローチの一貫性のある評価と公正な評価を妨げている。
論文 参考訳(メタデータ) (2024-12-15T10:47:26Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。
さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:56:34Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。