論文の概要: Agent Benchmarks Fail Public Sector Requirements
- arxiv url: http://arxiv.org/abs/2601.20617v1
- Date: Wed, 28 Jan 2026 13:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.957078
- Title: Agent Benchmarks Fail Public Sector Requirements
- Title(参考訳): エージェントベンチマークは公共セクターの要求を損なう
- Authors: Jonathan Rystrøm, Chris Schmitz, Karolina Korgul, Jan Batzner, Chris Russell,
- Abstract要約: パブリックセクターの要件を適切に反映するために、基準ベンチマークがどの基準を満たす必要があるのかは、いまだに不明である。
まず,行政文献の第一原理調査に基づいて,その基準を定義した。
我々は、専門家が検証したLSMアシストパイプラインを用いて、これらの基準について1300以上のベンチマーク論文を分析した。
- 参考スコア(独自算出の注目度): 4.1796836971711055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Large Language Model-based agents (LLM agents) in the public sector requires assuring that they meet the stringent legal, procedural, and structural requirements of public-sector institutions. Practitioners and researchers often turn to benchmarks for such assessments. However, it remains unclear what criteria benchmarks must meet to ensure they adequately reflect public-sector requirements, or how many existing benchmarks do so. In this paper, we first define such criteria based on a first-principles survey of public administration literature: benchmarks must be \emph{process-based}, \emph{realistic}, \emph{public-sector-specific} and report \emph{metrics} that reflect the unique requirements of the public sector. We analyse more than 1,300 benchmark papers for these criteria using an expert-validated LLM-assisted pipeline. Our results show that no single benchmark meets all of the criteria. Our findings provide a call to action for both researchers to develop public sector-relevant benchmarks and for public-sector officials to apply these criteria when evaluating their own agentic use cases.
- Abstract(参考訳): 公共部門に大規模言語モデルベースエージェント(LLMエージェント)を配備するには、公的機関の厳格な法的、手続き的、構造的要件を満たすことが必要である。
実践家や研究者はしばしばそのような評価のベンチマークに目を向ける。
しかしながら、パブリックセクタの要件を適切に反映するために、ベンチマークがどの基準を満たす必要があるのか、既存のベンチマークがいくつあるのかは、いまだに不明である。
本稿では、まず、公共行政文献の第一原理調査に基づいて、これらの基準を定義した: ベンチマークは、公共セクターのユニークな要件を反映した、 \emph{process-based}, \emph{realistic}, \emph{public-sector-specific}, report \emph{metrics}である。
我々は、専門家が検証したLSMアシストパイプラインを用いて、これらの基準について1300以上のベンチマーク論文を分析した。
以上の結果から,すべての基準に適合するベンチマークは1つもないことがわかった。
以上の結果から,両研究者は,公的セクター関連ベンチマークを策定し,公的セクター担当者が自身のエージェントユースケースを評価する際に,これらの基準を適用するよう呼びかけた。
関連論文リスト
- Deprecating Benchmarks: Criteria and Framework [2.6449913368815516]
ベンチマークを完全にあるいは部分的に非推奨にする時期を決定するための基準と、ベンチマークを非推奨にするフレームワークを提案する。
我々の研究は、特にフロンティアモデルにおいて、厳格で高品質な評価に向けたベンチマークの状況を改善することを目的としている。
論文 参考訳(メタデータ) (2025-07-08T22:29:06Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Social Bias in Popular Question-Answering Benchmarks [0.0]
質問応答(QA)と読解理解(RC)ベンチマークは,知識の検索と再生において,大規模言語モデル(LLM)の能力を評価する上で不可欠である。
一般的なQAおよびRCベンチマークは偏りがあり、代表的な方法で異なる人口層や地域に関する質問をカバーしていないことを実証する。
論文 参考訳(メタデータ) (2025-05-21T14:14:47Z) - EvalAgent: Discovering Implicit Evaluation Criteria from the Web [82.82096383262068]
EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。
EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。
我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
論文 参考訳(メタデータ) (2025-04-21T16:43:50Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。