論文の概要: PRBench: Large-Scale Expert Rubrics for Evaluating High-Stakes Professional Reasoning
- arxiv url: http://arxiv.org/abs/2511.11562v1
- Date: Fri, 14 Nov 2025 18:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.765738
- Title: PRBench: Large-Scale Expert Rubrics for Evaluating High-Stakes Professional Reasoning
- Title(参考訳): PRBench: 大規模専門家によるプロフェッショナル推論の評価
- Authors: Afra Feyza Akyürek, Advait Gosai, Chen Bo Calvin Zhang, Vipul Gupta, Jaehwan Jeong, Anisha Gunjal, Tahseen Rabbani, Maria Mazzone, David Randolph, Mohammad Mahmoudi Meymand, Gurshaan Chattha, Paula Rodriguez, Diego Mares, Pavit Singh, Michael Liu, Subodh Chawla, Pete Cline, Lucy Ogaz, Ernesto Hernandez, Zihao Wang, Pavi Bhatter, Marcos Ayestaran, Bing Liu, Yunzhong He,
- Abstract要約: Professional Reasoning Bench (PRBench) は、ファイナンス・アンド・ローにおける現実的な問題の現実的で、オープンで、困難なベンチマークである。
私たちは1,100人の専門家によるタスクと19,356人の専門家による基準をオープンソース化しました。
- 参考スコア(独自算出の注目度): 18.32501228579171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier model progress is often measured by academic benchmarks, which offer a limited view of performance in real-world professional contexts. Existing evaluations often fail to assess open-ended, economically consequential tasks in high-stakes domains like Legal and Finance, where practical returns are paramount. To address this, we introduce Professional Reasoning Bench (PRBench), a realistic, open-ended, and difficult benchmark of real-world problems in Finance and Law. We open-source its 1,100 expert-authored tasks and 19,356 expert-curated criteria, making it, to our knowledge, the largest public, rubric-based benchmark for both legal and finance domains. We recruit 182 qualified professionals, holding JDs, CFAs, or 6+ years of experience, who contributed tasks inspired by their actual workflows. This process yields significant diversity, with tasks spanning 114 countries and 47 US jurisdictions. Our expert-curated rubrics are validated through a rigorous quality pipeline, including independent expert validation. Subsequent evaluation of 20 leading models reveals substantial room for improvement, with top scores of only 0.39 (Finance) and 0.37 (Legal) on our Hard subsets. We further catalog associated economic impacts of the prompts and analyze performance using human-annotated rubric categories. Our analysis shows that models with similar overall scores can diverge significantly on specific capabilities. Common failure modes include inaccurate judgments, a lack of process transparency and incomplete reasoning, highlighting critical gaps in their reliability for professional adoption.
- Abstract(参考訳): 最前線モデルの進歩は、実世界のプロフェッショナルコンテキストにおけるパフォーマンスの限られたビューを提供する学術ベンチマークによってしばしば測定される。
既存の評価は、実際的なリターンが最重要である法や財務などの高額な領域において、オープンエンドで経済的に相応しいタスクを評価するのに失敗することが多い。
これを解決するために,我々は,金融法における現実的,オープンな,かつ困難な現実的問題のベンチマークであるProfessional Reasoning Bench(PRBench)を紹介した。
われわれは1100名の専門家によるタスクと19,356名の専門家による基準をオープンソース化した。
JD、CFA、または6年以上の経験を持ち、実際のワークフローにインスパイアされたタスクに貢献した182人の資格のあるプロフェッショナルを募集します。
このプロセスは大きな多様性をもたらし、114の国と47の米国司法管轄区域にまたがるタスクである。
専門家によるキュレートされたルーリックは、独立した専門家による検証を含む厳格な品質パイプラインを通じて検証されます。
続く20の先行モデルの評価では、上位スコアは0.39(Finance)と0.37(Legal)のみである。
さらに,提案手法の経済的影響のカタログ化と,人間の注釈付きルーブリックカテゴリーを用いた性能分析を行った。
分析の結果、類似のスコアを持つモデルは、特定の能力に大きく依存することがわかった。
一般的な障害モードには、不正確な判断、プロセスの透明性の欠如、不完全な推論などが含まれており、プロフェッショナルの採用に対する信頼性の欠如を強調している。
関連論文リスト
- ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge [94.40918390309186]
大規模言語モデル(LLM)の進捗を評価することは、応答を検証するという課題によって制約されることが多い。
7000以上の応答基準ペアの集合であるProfBenchを紹介する。
以上の結果から, ProfBench は最先端の LLM においても大きな課題となることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-21T17:59:44Z) - Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions [85.88573535033406]
CRMArena-Proは、多種多様なプロフェッショナル環境でのLLMエージェントの総合的で現実的な評価のための新しいベンチマークである。
多様なペルソナと堅牢な機密性意識評価によって導かれるマルチターンインタラクションが組み込まれている。
実験によると、主要なLLMエージェントはCRMArena-Proで58%のシングルターン成功しか達成せず、パフォーマンスはマルチターン設定で約35%に大幅に低下している。
論文 参考訳(メタデータ) (2025-05-24T21:33:22Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。