論文の概要: Design and Report Benchmarks for Knowledge Work
- arxiv url: http://arxiv.org/abs/2605.23262v1
- Date: Fri, 22 May 2026 06:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.218755
- Title: Design and Report Benchmarks for Knowledge Work
- Title(参考訳): 知識労働のための基準の設計と報告
- Authors: Yining Hua, Hongbin Na, Cyrus Ayubcha, Levi Lian,
- Abstract要約: 本稿では,評価結果に付随する作業クレームを,ベンチマークタスクがどのように表現するかを明確にするための3段階のアプローチを提案する。
評価中の作業アクティビティを一般的なベンチマークタスクと区別するために、O*NETの作業タスクデータベースから18の作業アクティビティの在庫を抽出する。
- 参考スコア(独自算出の注目度): 5.13982016225783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of LLM agents has led to a growing body of work on knowledge-work AI, including coding, research, and healthcare. However, current knowledge-work evaluation and benchmark design still largely follow the logic of traditional NLP tasks. As a result, higher benchmark performance does not reliably show that a system can carry out knowledge work in real-world deployment settings. This paper contributes a three-step approach for making explicit how benchmarked tasks represent the work claims attached to their scores: defining the work activity under evaluation, specifying the tested setting, and scoring the appropriate work product. We review work studies showing that knowledge work is organized through roles and responsibilities, local materials and tools, and artifacts that must remain usable in downstream workflows. We then translate these concerns into benchmark design and reporting guidance, covering how tasks should be mapped to work activities, how tested settings should specify materials, tools, roles, and constraints, and how scoring should focus on the work product left by the system. To name the work activity being evaluated and distinguish it from common benchmark tasks, we derive an inventory of 18 work activities from the O{*}NET occupational task database. We demonstrate the approach through three benchmark case analyses: GDPval, a non-code occupational deliverable benchmark; OfficeQA Pro, a grounded document-analysis benchmark scored by final answers; and APEX-SWE, a software-engineering benchmark with executable scored products. These cases show how benchmark design choices shape the strongest work claim a score can support, and where gaps arise between the benchmarked task, tested setting, scored product, and broader work claim.
- Abstract(参考訳): LLMエージェントの開発は、コーディング、研究、医療など、ナレッジワークAIに関する活動の活発化につながっている。
しかしながら、現在のナレッジワーク評価とベンチマーク設計は、従来のNLPタスクの論理に大きく従っている。
その結果、より高いベンチマーク性能は、システムが現実世界の配置設定で知識処理を実行できることを確実に示さない。
本稿では,評価下での作業活動の定義,テスト済みの設定の特定,適切な作業製品の評価など,評価されたタスクが,それらのスコアに付随する作業クレームをどのように表すかを明確にするための3段階のアプローチを提案する。
我々は、知識労働が、役割と責任、現地の材料とツール、下流のワークフローで使用できなければならないアーティファクトを通じて組織されていることを示すワークスタディをレビューする。
次に、これらの懸念をベンチマーク設計とレポートのガイダンスに変換し、作業アクティビティにタスクをどのようにマッピングするか、テストされた設定が材料、ツール、役割、制約をどのように指定するか、システムが残した作業製品にどのようにフォーカスするか、などを説明します。
評価中の作業アクティビティを一般的なベンチマークタスクと区別するために、O{*}NETの作業タスクデータベースから18の作業アクティビティの在庫を抽出する。
提案手法は,非コードで作業可能なベンチマークであるGDPval,最終回答によってスコア付けされた文書分析ベンチマークであるOfficeQA Pro,実行可能な製品を用いたソフトウェアエンジニアリングベンチマークであるAPEX-SWEの3つのベンチマークケース分析を通じて実証する。
これらのケースは、ベンチマーク設計の選択が、スコアがサポートする最強の作業クレームを形成する方法を示し、ベンチマークされたタスク、テストされた設定、評価された製品、より広範な作業クレームの間にギャップが生じるかを示しています。
関連論文リスト
- ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents [10.578603956693696]
本稿では,ProdCodeBenchを用いて実運用用ベンチマークの計算手法を提案する。
それぞれのキュレートされたサンプルは、7つのプログラミング言語にまたがる冗長なプロンプト、コミットされたコード変更、フェイル・ツー・パステストで構成されている。
4つの基礎モデルの体系的な分析は、53.2%から72.2%の範囲で解決する。
論文 参考訳(メタデータ) (2026-04-02T01:52:55Z) - Characterizing Knowledge Graph Tasks in LLM Benchmarks Using Cognitive Complexity Frameworks [0.13108652488669734]
大きな言語モデル(LLM)は知識グラフ(KG)に関わるタスクにますます使われています。
本稿では,認知心理学からの3つの複雑性フレームワークを用いた補完的タスクキャラクタリゼーション手法を提案する。
LLM-KG-Benchフレームワークにこれを適用して、価値分布を強調し、不足した要求を特定し、ベンチマーク評価タスクのより豊かな解釈と多様性を動機付ける。
論文 参考訳(メタデータ) (2025-09-17T08:15:14Z) - DOCUEVAL: An LLM-based AI Engineering Tool for Building Customisable Document Evaluation Workflows [14.403156040714817]
我々は、カスタマイズ可能な評価器を構築するためのAIエンジニアリングツールであるDOCUEVALを紹介する。
DOCUEVALが評価器の工学とスケーラブルで信頼性の高い文書評価の両方を実現する方法を示す。
論文 参考訳(メタデータ) (2025-09-12T08:09:09Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - A Task-Centric Perspective on Recommendation Systems [32.44458308850838]
我々はRecSysタスクの定式化を解析し、入力出力構造、時間力学、候補項目選択といった重要なコンポーネントを強調した。
本稿では,タスク特異性とモデル一般化可能性のバランスについて考察し,タスク定式化がロバストな評価と効率的なソリューション開発の基礎となることを明らかにする。
論文 参考訳(メタデータ) (2025-03-27T06:10:22Z) - TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [7.3673614578648285]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。
本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-30T22:31:19Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。