論文の概要: ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
- arxiv url: http://arxiv.org/abs/2510.18941v1
- Date: Tue, 21 Oct 2025 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.420478
- Title: ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
- Title(参考訳): ProfBench: 専門知識を必要とする複数ドメインのラグビー選手
- Authors: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong,
- Abstract要約: 大規模言語モデル(LLM)の進捗を評価することは、応答を検証するという課題によって制約されることが多い。
7000以上の応答基準ペアの集合であるProfBenchを紹介する。
以上の結果から, ProfBench は最先端の LLM においても大きな課題となることが明らかとなった。
- 参考スコア(独自算出の注目度): 94.40918390309186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating progress in large language models (LLMs) is often constrained by the challenge of verifying responses, limiting assessments to tasks like mathematics, programming, and short-form question-answering. However, many real-world applications require evaluating LLMs in processing professional documents, synthesizing information, and generating comprehensive reports in response to user queries. We introduce ProfBench: a set of over 7000 response-criterion pairs as evaluated by human-experts with professional knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by mitigating self-enhancement bias and reducing the cost of evaluation by 2-3 orders of magnitude, to make it fair and accessible to the broader community. Our findings reveal that ProfBench poses significant challenges even for state-of-the-art LLMs, with top-performing models like GPT-5-high achieving only 65.9\% overall performance. Furthermore, we identify notable performance disparities between proprietary and open-weight models and provide insights into the role that extended thinking plays in addressing complex, professional-domain tasks. Data: https://huggingface.co/datasets/nvidia/ProfBench and Code: https://github.com/NVlabs/ProfBench
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩を評価することは、応答の検証、数学、プログラミング、短い形式の質問応答といったタスクへのアセスメントの制限によってしばしば制限される。
しかし、多くの現実世界のアプリケーションは、プロのドキュメントの処理、情報の合成、ユーザクエリに対する包括的なレポートの生成において、LCMを評価する必要がある。
物理PhD、化学PhD、ファイナンスMBA、コンサルティングMBAの専門知識を持つ人間専門家によって評価された7000以上の応答基準ペアであるProfBenchを紹介する。
自己増進バイアスを緩和し,2~3桁の規模で評価コストを削減し,ProfBenchルーリックを公平かつ手頃な価格で評価するLLM-Judgesを構築した。
以上の結果から,最新のLCMにおいても,GPT-5ハイなどの最高性能モデルが65.9%に留まり,ProfBenchは大きな課題を生んでいることが判明した。
さらに、プロプライエタリモデルとオープンウェイトモデルとの顕著なパフォーマンス格差を特定し、複雑な専門分野のタスクに対処する上で、思考が果たす役割についての洞察を提供する。
データ:https://huggingface.co/datasets/nvidia/ProfBenchとコード:https://github.com/NVlabs/ProfBench
関連論文リスト
- "You Are Rejected!": An Empirical Study of Large Language Models Taking Hiring Evaluations [1.1254231171451319]
本稿では,Large Language Models (LLM) が採用評価に合格できるかどうかを検討する。
我々は,現状のLLMを用いて応答を生成し,その性能を評価する。
LLMが理想的なエンジニアであるというこれまでの期待とは対照的に、我々の分析は、モデル生成の回答と企業参照のソリューションとの間に大きな矛盾があることを明らかにしている。
論文 参考訳(メタデータ) (2025-10-22T01:59:30Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks [43.509761349059914]
ProBenchはプロの専門知識と高度な推論を必要とするオープンエンドのユーザクエリのベンチマークである。
10の分野と56のサブフィールドにまたがっており、科学、芸術、人文科学、コーディング、数学、創造的執筆などが含まれる。
ProBenchは、視覚知覚、テキスト理解、ドメイン知識、高度な推論において重要な課題を提示している。
論文 参考訳(メタデータ) (2025-03-10T03:29:18Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。