論文の概要: From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations
- arxiv url: http://arxiv.org/abs/2508.20744v1
- Date: Thu, 28 Aug 2025 13:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.400376
- Title: From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations
- Title(参考訳): 法からガーキンへ:食品安全規制によるLCM生成行動仕様の品質に関する人間中心準実験
- Authors: Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot,
- Abstract要約: LLM(Large Language Models)は、法的なテキストから高品質なGherkin仕様を生成することができる。
これらの仕様は、法的要件を開発者フレンドリーな形式に翻訳する。
- 参考スコア(独自算出の注目度): 2.486257870688793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Laws and regulations increasingly affect software design and quality assurance, but legal texts are written in technology-neutral language. This creates challenges for engineers who must develop compliance artifacts such as requirements and acceptance criteria. Manual creation is labor-intensive, error-prone, and requires domain expertise. Advances in Generative AI (GenAI), especially Large Language Models (LLMs), offer a way to automate deriving such artifacts. Objective: We present the first systematic human-subject study of LLMs' ability to derive behavioral specifications from legal texts using a quasi-experimental design. These specifications translate legal requirements into a developer-friendly form. Methods: Ten participants evaluated specifications generated from food-safety regulations by Claude and Llama. Using Gherkin, a structured BDD language, 60 specifications were produced. Each participant assessed 12 across five criteria: Relevance, Clarity, Completeness, Singularity, and Time Savings. Each specification was reviewed by two participants, yielding 120 assessments. Results: For Relevance, 75% of ratings were highest and 20% second-highest. Clarity reached 90% highest. Completeness: 75% highest, 19% second. Singularity: 82% highest, 12% second. Time Savings: 68% highest, 24% second. No lowest ratings occurred. Mann-Whitney U tests showed no significant differences across participants or models. Llama slightly outperformed Claude in Clarity, Completeness, and Time Savings, while Claude was stronger in Singularity. Feedback noted hallucinations and omissions but confirmed the utility of the specifications. Conclusion: LLMs can generate high-quality Gherkin specifications from legal texts, reducing manual effort and providing structured artifacts useful for implementation, assurance, and test generation.
- Abstract(参考訳): コンテキスト: 法律や規則はソフトウェア設計や品質保証にますます影響しますが、法律文は技術中立言語で書かれています。
これは、要件や受け入れ基準のようなコンプライアンスアーティファクトを開発する必要があるエンジニアにとっての課題を生み出します。
手作業による作成は、労働集約的で、エラーを起こしやすく、ドメインの専門知識を必要とする。
Generative AI(GenAI)の進歩、特にLarge Language Models(LLM)は、そのようなアーティファクトを自動生成する方法を提供する。
目的: 準実験設計を用いて, 法文から行動仕様を導出するLLMの能力に関する, 最初の体系的人間オブジェクト研究を示す。
これらの仕様は、法的要件を開発者フレンドリーな形式に翻訳する。
方法:10名の参加者がClaudeとLlamaによる食品安全規制から生成された仕様を評価した。
構造化BDD言語であるGherkinを使用して、60の仕様が作成された。
各被験者は、関連性、明確性、完全性、特異性、時間節約の5つの基準で12項目を評価した。
各仕様は2人の参加者によってレビューされ、120のアセスメントが得られた。
結果: 関連性では、75%のレーティングが最も高く、20%が第2位であった。
明瞭度は90%に達した。
最高値:75%、最高値:19%。
特異性:最高82%、低12%。
時間節約:最高68%、低24%。
最低評価は行われなかった。
Mann-Whitney U テストでは、参加者やモデル間で有意な差は見られなかった。
LlamaはClarity, Completeness, Time SavingsでClaudeをわずかに上回り、ClaudeはSingularityで強かった。
フィードバックは幻覚と省略に言及したが、仕様の実用性を確認した。
結論: LLMは法的なテキストから高品質なGherkin仕様を生成し、手作業の削減と、実装、保証、テスト生成に有用な構造化されたアーティファクトを提供する。
関連論文リスト
- Affordance Benchmark for MLLMs [38.62884479364572]
A4Bench**は,MLLMの2次元における空き知覚能力を評価するために設計された,新しいベンチマークである。
我々は17のMLLM(9つのプロプライエタリと8つのオープンソース)を評価し、それらを人的パフォーマンスと比較した。
結果として、プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、すべてのモデルは人間よりはるかに低いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-06-01T08:26:34Z) - C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation [58.40263551616771]
本稿では,いくつかの知識文書に基づいて,詳細なQAデータセットを自動的に構築するエージェントフレームワークであるHaluAgentを紹介する。
本実験は,手作業で設計したルールと迅速な最適化により,生成データの品質が向上できることを実証する。
論文 参考訳(メタデータ) (2025-04-14T12:21:55Z) - Synthesized Annotation Guidelines are Knowledge-Lite Boosters for Clinical Information Extraction [2.7311339391824725]
本稿では,LLMの知識要約とテキスト生成能力を抽出し,ガイドラインを合成する自己改善手法を提案する。
2012 i2b2 EVENT, 2012 i2b2 TIMEX, 2014 i2b2, 2018 n2c2では25.86%, 4.36%, 0.20%, 7.75%の厳格なF1スコアが得られた。
LLMを合成したガイドラインは、ほとんどのタスクで1.15%から4.14%の人書きのガイドラインよりも同等または優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-04-01T15:59:04Z) - Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - On the Effectiveness of LLMs for Manual Test Verifications [1.920300814128832]
本研究の目的は,手動テストの検証にLarge Language Models (LLMs) を用いることである。
オープンソースモデル Mistral-7B と Phi-3-mini-4k は、クローズドソースモデルと同等の有効性と一貫性を示した。
AI幻覚にも懸念があり、検証は期待から著しく逸脱した。
論文 参考訳(メタデータ) (2024-09-19T02:03:04Z) - Controllable Text Generation for Large Language Models: A Survey [27.110528099257156]
本稿では,大規模言語モデルにおける制御可能なテキスト生成の最近の進歩を体系的にレビューする。
我々はCTGタスクをコンテンツ制御と制御の2つの主要なタイプに分類する。
現在の研究における重要な課題には、流用率の低減や実用性といった課題に対処する。
論文 参考訳(メタデータ) (2024-08-22T17:59:04Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。