論文の概要: Generating and Evaluating Sustainable Procurement Criteria for the Swiss Public Sector using In-Context Prompting with Large Language Models
- arxiv url: http://arxiv.org/abs/2603.22513v1
- Date: Mon, 23 Mar 2026 19:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.166603
- Title: Generating and Evaluating Sustainable Procurement Criteria for the Swiss Public Sector using In-Context Prompting with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたIn-Context Promptingを用いたスイス公共セクターの持続的調達基準の生成と評価
- Authors: Yingqiang Gao, Veton Matoshi, Luca Rolshoven, Tilia Ellendorff, Judith Binder, Jeremy Austin Jann, Gerold Schneider, Matthias Stürmer,
- Abstract要約: 公共調達(Public procurement)とは、公共セクター機関が商品やサービスを取得する過程のこと。
スイスの法律は、生態学的、社会的、経済的持続可能性要件を緩やかな評価に統合する必要がある。
高レベルの持続可能性規制を具体的、検証可能、セクター固有の調達基準に翻訳することは、労働集約的でエラーを起こしやすい手作業のままである。
- 参考スコア(独自算出の注目度): 5.793605269631446
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Public procurement refers to the process by which public sector institutions, such as governments, municipalities, and publicly funded bodies, acquire goods and services. Swiss law requires the integration of ecological, social, and economic sustainability requirements into tender evaluations in the format of criteria that have to be fulfilled by a bidder. However, translating high-level sustainability regulations into concrete, verifiable, and sector-specific procurement criteria (such as selection criteria, award criteria, and technical specifications) remains a labor-intensive and error-prone manual task, requiring substantial domain expertise in several groups of goods and services and considerable manual effort. This paper presents a configurable, LLM-assisted pipeline that is presented as a software supporting the systematic generation and evaluation of sustainability-oriented procurement criteria catalogs for Switzerland. The system integrates in-context prompting, interchangeable LLM backends, and automated output validation to enable auditable criteria generation across different procurement sectors. As a proof of concept, we instantiate the pipeline using official sustainability guidelines published by the Swiss government and the European Commission, which are ingested as structured reference documents. We evaluate the system through a combination of automated quality checks, including an LLM-based evaluation component, and expert comparison against a manually curated gold standard. Our results demonstrate that the proposed pipeline can substantially reduce manual drafting effort while producing criteria catalogs that are consistent with official guidelines. We further discuss system limitations, failure modes, and design trade-offs observed during deployment, highlighting key considerations for integrating generative AI into public sector software workflows.
- Abstract(参考訳): 公共調達とは、政府、自治体、公的資金提供機関などの公共機関が商品やサービスを取得する過程を指す。
スイスの法律は、入札者が満たさなければならない基準の形式において、生態学的、社会的、経済的持続可能性要件を優劣評価に統合することを要求する。
しかし、高レベルのサステナビリティ規制を具体的、検証可能、セクター固有の調達基準(選定基準、受賞基準、技術仕様など)に翻訳することは、労働集約的かつエラーを起こしやすい手作業であり、いくつかの商品・サービスグループにおいて相当量のドメイン知識と相当な手作業を必要としている。
本稿では,スイスにおける持続可能性指向の調達基準カタログの体系的生成と評価を支援するソフトウェアとして,構成可能なLCM支援パイプラインを提案する。
このシステムは、インコンテキストプロンプト、交換可能なLCMバックエンド、および自動出力検証を統合し、異なる調達セクター間で監査可能な基準生成を可能にする。
概念実証として、スイス政府と欧州委員会によって公表された公式な持続可能性ガイドラインを用いてパイプラインをインスタンス化し、構造化された参照文書として取り込みます。
LLMに基づく評価コンポーネントを含む自動品質チェックと,手作業によるキュレートされたゴールド標準との比較により,システムの評価を行った。
提案したパイプラインは,公式ガイドラインと整合した基準カタログを作成しながら,手作業によるドラフト作業を大幅に削減できることを示す。
さらに、デプロイメント中に観察されるシステムの制限、障害モード、設計上のトレードオフについて論じ、生成AIをパブリックセクターソフトウェアワークフローに統合する上で重要な考慮事項を強調します。
関連論文リスト
- Agent Benchmarks Fail Public Sector Requirements [4.1796836971711055]
パブリックセクターの要件を適切に反映するために、基準ベンチマークがどの基準を満たす必要があるのかは、いまだに不明である。
まず,行政文献の第一原理調査に基づいて,その基準を定義した。
我々は、専門家が検証したLSMアシストパイプラインを用いて、これらの基準について1300以上のベンチマーク論文を分析した。
論文 参考訳(メタデータ) (2026-01-28T13:51:30Z) - Standards for trustworthy AI in the European Union: technical rationale, structural challenges, and an implementation path [0.0]
この白書は、AI法に基づく欧州のAI標準化の技術的基盤について考察する。
CEN/CENELECの標準化プロセスを説明するとともに、AIがユニークな課題を提起する理由を分析する。
論文 参考訳(メタデータ) (2026-01-21T11:58:47Z) - Safe and Certifiable AI Systems: Concepts, Challenges, and Lessons Learned [45.44933002008943]
この白書は、T"UV AUSTRIA Trusted AIフレームワークを提示する。
エンド・ツー・エンドの監査カタログであり、機械学習システムの評価と認定のための方法論である。
セキュアなソフトウェア開発、機能要件、倫理とデータプライバシという3つの柱の上に構築されているのは、EU AI Actの高レベルの義務を、特定かつテスト可能な基準に翻訳するものです。
論文 参考訳(メタデータ) (2025-09-08T17:52:08Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Multi-Modal Requirements Data-based Acceptance Criteria Generation using LLMs [17.373348983049176]
マルチモーダル要求データから受け入れ基準を生成する新しい手法であるRAGcceptance M2REを提案する。
提案手法は,手作業の労力を効果的に削減し,未払いの利害関係者の意図を捉え,貴重な基準を提供する。
本研究は,ソフトウェア検証プロセスの合理化と開発効率の向上におけるマルチモーダルRAG技術の可能性を明らかにする。
論文 参考訳(メタデータ) (2025-08-09T08:35:40Z) - RIRAG: Regulatory Information Retrieval and Answer Generation [51.998738311700095]
本稿では,質問を自動生成し,関連する規制通路と組み合わせる,問合せペアを生成するタスクを紹介する。
我々は、Abu Dhabi Global Markets (ADGM) の財務規制文書から得られた27,869の質問を含むObliQAデータセットを作成する。
本稿では,RIRAG(Regulation Information Retrieval and Answer Generation)システムをベースラインとして設計し,新しい評価基準であるRePASを用いて評価する。
論文 参考訳(メタデータ) (2024-09-09T14:44:19Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Identification of Regulatory Requirements Relevant to Business
Processes: A Comparative Study on Generative AI, Embedding-based Ranking,
Crowd and Expert-driven Methods [10.899912290518648]
この研究は、法的およびドメインの専門家が関連する要件を評価するのにどのように役立つかを調べる。
我々は,組込み型NLPランキング法,GPT-4を用いた生成AI法,クラウドソーシング手法を,専門家によるラベル作成の純粋手作業手法と比較した。
BPMN2.0プロセスの両方に対してゴールドスタンダードが作成され、複数の規制文書から現実の要求にマッチします。
論文 参考訳(メタデータ) (2024-01-02T12:08:31Z) - NLP-based Decision Support System for Examination of Eligibility
Criteria from Securities Prospectuses at the German Central Bank [0.0]
ドイツ中央銀行(中央銀行)はPDF形式でスキャンされた数百の先入観を受信し、その適性を決定するために手作業で処理する必要がある。
この退屈で時間を要するプロセスは、現代的なNLPモデルアーキテクチャを利用することで(半自動で)実現できることがわかりました。
提案する意思決定支援システムは、人間の理解可能な説明を伴う文書レベルの適格基準を決定する。
論文 参考訳(メタデータ) (2023-02-09T11:00:58Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。