論文の概要: \$OneMillion-Bench: How Far are Language Agents from Human Experts?
- arxiv url: http://arxiv.org/abs/2603.07980v1
- Date: Mon, 09 Mar 2026 05:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.511398
- Title: \$OneMillion-Bench: How Far are Language Agents from Human Experts?
- Title(参考訳): \$OneMillion-Bench: 言語エージェントはどこまで人間の専門家から来ているか?
- Authors: Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong,
- Abstract要約: OneMillion-Benchは、法、財務、産業、ヘルスケア、そして自然科学にまたがる400の専門家によるタスクのベンチマークである。
OneMillion-Benchは、ドメイン集約シナリオにおけるエージェントの信頼性、専門的な深さ、実践的準備性を評価するための統合テストベッドを提供する。
- 参考スコア(独自算出の注目度): 43.31541643833527
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \$OneMillion-Bench \$OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.
- Abstract(参考訳): 言語モデル(LM)がチャットアシスタントから多段階の推論とツール使用が可能なロングホライゾンエージェントへと進化するにつれて、既存のベンチマークは、現実世界の専門的要求に満たない構造化されたタスクや試験スタイルのタスクに限られる。
この目的のために、法、財務、産業、医療、自然科学にまたがる400の専門家によるタスクのベンチマークである、$OneMillion-Bench \$OneMillion-Benchを紹介します。
以前の作業とは異なり、ベンチマークでは信頼できる情報源の検索、矛盾する証拠の解決、ドメイン固有のルールの適用、制約決定が求められている。
我々は,エージェント間の有意義な区別を確保するために,専門家レベルの問題に焦点をあて,事実的正確性,論理的一貫性,実践的実現可能性,および専門的コンプライアンスを評価するルーリックベースの評価プロトコルを採用する。
同時に$OneMillion-Benchは、ドメイン集約シナリオにおけるエージェントの信頼性、専門的な深さ、実用的な準備性を評価するための統合テストベッドを提供する。
関連論文リスト
- $τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge [58.03692489021332]
$-Knowledgeは、外部の自然言語知識とツール出力の協調に依存する環境でエージェントを評価するための$-Benchの拡張である。
我々は、$$-Knowledgeが、非構造的知識を人間対応デプロイメントに組み込むエージェントを開発するための、現実的なテストベッドを提供することを示した。
論文 参考訳(メタデータ) (2026-03-04T18:34:47Z) - MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings [17.012108640696916]
企業会議から得られたバイリンガルかつマルチモーダルなコーパスであるMeetAllについて紹介する。
MeetBench XLは、事実の忠実さ、意図の整合性、応答効率、構造的明確性、完全性を測定する。
MeetMaster XLは学習されたデュアルポリシーエージェントで、高速で遅い推論パスとツール呼び出しの間のクエリルーティングを共同で最適化する。
論文 参考訳(メタデータ) (2026-02-03T09:08:18Z) - Benchmarking LLM Agents for Wealth-Management Workflows [0.0]
この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。
本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
論文 参考訳(メタデータ) (2025-12-01T21:56:21Z) - UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI [2.0619484032730813]
UpBenchは、グローバルなUpworkの労働市場から引き出された実際の仕事に関するベンチマークだ。
各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。
UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
論文 参考訳(メタデータ) (2025-11-15T17:39:37Z) - PRBench: Large-Scale Expert Rubrics for Evaluating High-Stakes Professional Reasoning [18.32501228579171]
Professional Reasoning Bench (PRBench) は、ファイナンス・アンド・ローにおける現実的な問題の現実的で、オープンで、困難なベンチマークである。
私たちは1,100人の専門家によるタスクと19,356人の専門家による基準をオープンソース化しました。
論文 参考訳(メタデータ) (2025-11-14T18:55:12Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。