論文の概要: The CitizenQuery Benchmark: A Novel Dataset and Evaluation Pipeline for Measuring LLM Performance in Citizen Query Tasks
- arxiv url: http://arxiv.org/abs/2602.04064v1
- Date: Tue, 03 Feb 2026 22:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.300756
- Title: The CitizenQuery Benchmark: A Novel Dataset and Evaluation Pipeline for Measuring LLM Performance in Citizen Query Tasks
- Title(参考訳): 市民問合せベンチマーク:市民問合せタスクにおけるLCM性能測定のための新しいデータセットと評価パイプライン
- Authors: Neil Majithia, Rajat Shinde, Zo Chapman, Prajun Trital, Jordan Decker, Manil Maskey, Elena Simperl, Nigel Shadbolt,
- Abstract要約: 市民問合せ(ちちぜんきゅう)とは、その事情に関係のある政府の方針・指導・サービスについて、個人から質問される質問である。
これは、ユーザのコンテキストに適合した情報を持つ市民クエリに応答する大規模言語モデルにとって、魅力的なユースケースである。
市民クエリとレスポンスの2万組のベンチマークデータセットであるCitizenQuery-UKを紹介した。
- 参考スコア(独自算出の注目度): 8.50465147895087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Citizen queries" are questions asked by an individual about government policies, guidance, and services that are relevant to their circumstances, encompassing a range of topics including benefits, taxes, immigration, employment, public health, and more. This represents a compelling use case for Large Language Models (LLMs) that respond to citizen queries with information that is adapted to a user's context and communicated according to their needs. However, in this use case, any misinformation could have severe, negative, likely invisible ramifications for an individual placing their trust in a model's response. To this effect, we introduce CitizenQuery-UK, a benchmark dataset of 22 thousand pairs of citizen queries and responses that have been synthetically generated from the swathes of public information on $gov.uk$ about government in the UK. We present the curation methodology behind CitizenQuery-UK and an overview of its contents. We also introduce a methodology for the benchmarking of LLMs with the dataset, using an adaptation of FActScore to benchmark 11 models for factuality, abstention frequency, and verbosity. We document these results, and interpret them in the context of the public sector, finding that: (i) there are distinct performance profiles across model families, but each is competitive; (ii) high variance undermines utility; (iii) abstention is low and verbosity is high, with implications on reliability; and (iv) more trustworthy AI requires acknowledged "fallibility" in the way it interacts with users. The contribution of our research lies in assessing the trustworthiness of LLMs in citizen query tasks; as we see a world of increasing AI integration into day-to-day life, our benchmark, built entirely on open data, lays the foundations for better evidenced decision-making regarding AI and the public sector.
- Abstract(参考訳): 「市民問合せ」とは、利益、税金、移民、雇用、公衆衛生など、その状況に関係のある政府の政策、指導、サービスについて、個人から質問される質問である。
これは、ユーザのコンテキストに適合し、ニーズに応じて通信される情報を持つ市民クエリに応答する、LLM(Large Language Models)の魅力的なユースケースである。
しかしながら、このユースケースでは、あらゆる誤報は、モデルの反応に信頼を置く個人に対して、深刻な、負の、おそらく見えない影響をもたらす可能性がある。
この効果のために、英国政府に関する$gov.uk$の公開情報から合成された2万組の市民クエリとレスポンスのベンチマークデータセットであるCitizenQuery-UKを紹介した。
本稿では,CitizenQuery-UKの背景にあるキュレーション手法とその内容の概要について述べる。
また,本データセットを用いたLCMのベンチマーク手法について,FActScoreの適応を用いて,実数性,禁忌頻度,冗長性の11モデルをベンチマークする。
これらの結果を文書化し、それを公共セクターの文脈で解釈する。
(i)モデルファミリごとに異なるパフォーマンスプロファイルがあるが、それぞれが競争力がある。
(二)高分散が実用性を損なうこと。
三 棄権が低く、冗長性が高く、信頼性に影響を及ぼすこと。
(4)より信頼できるAIは、ユーザとのインタラクションの方法において、"フォールティビリティ"を認めなければならない。
私たちの研究の貢献は、市民クエリタスクにおけるLLMの信頼性を評価することにあります。AI統合が日々の生活に浸透するにつれて、我々のベンチマークは、完全にオープンデータに基づいて構築され、AIと公共セクターに関するより良い実証済みの意思決定の基礎を築き上げています。
関連論文リスト
- ACCESS DENIED INC: The First Benchmark Environment for Sensitivity Awareness [2.5967788365637103]
大規模言語モデル(LLM)は、様々な文書フォーマットからテキストを処理する能力のため、企業データ管理にとってますます価値が増している。
この研究は、敏感な言語モデルの基礎を確立し、企業環境におけるプライバシ中心のAIシステムを強化するための洞察を提供する。
論文 参考訳(メタデータ) (2025-06-01T11:24:23Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI [0.3495246564946556]
BUMPER(Building Understandable Messaging for Policy and Evidence Review)において,大規模言語モデル(LLM)を使用するためのフレームワークを導入する。
LLMは多様なメディアの大規模なデータベースを理解し合成するためのインタフェースを提供することができる。
この枠組みは、政策立案者に対する科学的証拠のアクセシビリティと信頼性を促進することができると我々は主張する。
論文 参考訳(メタデータ) (2024-06-27T05:03:03Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - Lessons Learned from a Citizen Science Project for Natural Language
Processing [53.48988266271858]
市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
我々は、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加について探索的研究を行う。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-04-25T14:08:53Z) - FacTeR-Check: Semi-automated fact-checking through Semantic Similarity
and Natural Language Inference [61.068947982746224]
FacTeR-Checkは、ファクトチェックされた情報の検索、未確認のクレームの検証、ソーシャルメディア上での危険な情報の追跡を可能にする。
このアーキテクチャは、NLI19-SPと呼ばれる新しいデータセットを使って検証されている。
この結果から,各ベンチマークにおける最先端性能と,61種類のホアックスの時間経過に伴う進化の有用な解析結果が得られた。
論文 参考訳(メタデータ) (2021-10-27T15:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。