論文の概要: Classification or Prompting: A Case Study on Legal Requirements Traceability
- arxiv url: http://arxiv.org/abs/2502.04916v2
- Date: Tue, 11 Feb 2025 13:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:08.665784
- Title: Classification or Prompting: A Case Study on Legal Requirements Traceability
- Title(参考訳): 分類・プロンプト:法的要件のトレーサビリティに関する事例研究
- Authors: Romina Etezadi, Sallam Abualhaija, Chetan Arora, Lionel Briand,
- Abstract要約: ソフトウェア開発が倫理的懸念に準拠し、公共の安全を優先することを保証するために、新しい規制が継続的に導入されている。
コンプライアンスを示すための前提条件は、ソフトウェア要件を法的規定にトレースすることである。
本稿では,要件と法的規定のトレースリンクを予測するための2つの自動解について検討する。
- 参考スコア(独自算出の注目度): 6.411835643029738
- License:
- Abstract: New regulations are continuously introduced to ensure that software development complies with the ethical concerns and prioritizes public safety. A prerequisite for demonstrating compliance involves tracing software requirements to legal provisions. Requirements traceability is a fundamental task where requirements engineers are supposed to analyze technical requirements against target artifacts, often under limited time budget. Doing this analysis manually for complex systems with hundreds of requirements is infeasible. The legal dimension introduces additional challenges that only exacerbate manual effort. In this paper, we investigate two automated solutions based on large language models (LLMs) to predict trace links between requirements and legal provisions. The first solution, Kashif, is a classifier that leverages sentence transformers. The second solution prompts a recent generative LLM based on Rice, a prompt engineering framework. On a benchmark dataset, we empirically evaluate Kashif and compare it against a baseline classifier from the literature. Kashif can identify trace links with an average recall of ~67%, outperforming the baseline with a substantial gain of 54 percentage points (pp) in recall. However, on unseen, more complex requirements documents traced to the European general data protection regulation (GDPR), Kashif performs poorly, yielding an average recall of 15%. On the same documents, however, our Rice-based solution yields an average recall of 84%, with a remarkable gain of about 69 pp over Kashif. Our results suggest that requirements traceability in the legal context cannot be simply addressed by building classifiers, as such solutions do not generalize and fail to perform well on complex regulations and requirements. Resorting to generative LLMs, with careful prompt engineering, is thus a more promising alternative.
- Abstract(参考訳): ソフトウェア開発が倫理的懸念に準拠し、公共の安全を優先することを保証するために、新しい規制が継続的に導入されている。
コンプライアンスを示すための前提条件は、ソフトウェア要件を法的規定にトレースすることである。
要件トレーサビリティは、要件エンジニアが目標とするアーティファクトに対する技術的要件を、しばしば制限された時間予算の下で分析する、基本的なタスクである。
この分析を数百の要件を持つ複雑なシステムに対して手動で行うことは不可能である。
法的な側面は、手作業だけを悪化させる、追加の課題をもたらします。
本稿では,大規模言語モデル(LLM)に基づく2つの自動解について検討し,要件と法的規定のトレースリンクを予測する。
第一の解である Kashif は文変換器を利用する分類器である。
第2のソリューションは、迅速なエンジニアリングフレームワークであるLiceをベースにした、最近のジェネレーティブなLLMを誘導する。
ベンチマークデータセットでは、Kashifを実証的に評価し、文献のベースライン分類器と比較する。
Kashifは平均67%のリコールでトレースリンクを識別でき、ベースラインを上回り、リコールでは54ポイント(pp)の実質的な増加を達成している。
しかし、欧州一般データ保護規則(GDPR)にさかのぼる、より複雑な要求文書では、Kashifはパフォーマンスが悪く、平均15%のリコールが得られる。
しかし、同じ文書では、我々のライスベースのソリューションは平均84%のリコールとなり、カシフよりも約69pp上昇した。
以上の結果から, 法的文脈における要求トレーサビリティは, 複雑な規制や要件に対して, 一般化せず, うまく機能しないため, 単に分類器を構築するだけでは対処できないことが示唆された。
生産的なLLMへの置き換えは、慎重な急進的なエンジニアリングによって、より有望な代替手段となる。
関連論文リスト
- Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests [0.6249768559720121]
我々は,新しいArithmetic Constraint-Satisfaction(ACS)ベンチマークデータセットを開発し,リリースする。
このデータセットは、対応する制約を持つ複雑なユーザリクエスト、エージェント応答、応答における各制約の満足度を示すヒューマンラベルで構成されている。
ほとんどのモデルにはまだ改善のための重要なヘッドルームがあることを示し、エラーは主に推論の問題に起因する。
論文 参考訳(メタデータ) (2024-09-22T09:27:42Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Rethinking Legal Compliance Automation: Opportunities with Large Language Models [2.9088208525097365]
我々は、(テキスト)法的アーティファクトの試験は、まず文よりも広い文脈で行うべきであると論じる。
これらの制約に対処するために,コンプライアンス分析手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T17:10:27Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Classification, Challenges, and Automated Approaches to Handle Non-Functional Requirements in ML-Enabled Systems: A Systematic Literature Review [10.09767622002672]
本稿では,これまで検討されてきた非機能要件の分類と,ML対応システムでモデルを開発する上で直面する課題の2つを対象とする体系的文献レビューを提案する。
本報告では,30種類の非機能要件を同定し,これらを6つの主要クラスに分類した。
また、23以上のソフトウェアエンジニアリング課題のカタログを編集し、機械学習対応システムの非機能要件についてさらなる研究を行ないました。
論文 参考訳(メタデータ) (2023-11-29T09:45:41Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Status Quo and Problems of Requirements Engineering for Machine
Learning: Results from an International Survey [7.164324501049983]
要求工学(RE)は、機械学習対応システムにおいて多くの問題を解決するのに役立つ。
我々は,ML対応システムにおけるREの現状と問題点について,実践者の知見を収集する調査を行った。
MLプロジェクトでは,REプラクティスに有意な違いが認められた。
論文 参考訳(メタデータ) (2023-10-10T15:53:50Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - NLP-based Automated Compliance Checking of Data Processing Agreements
against GDPR [9.022562906627991]
我々は、与えられたDPAの"shall"要求に対するコンプライアンスをチェックする自動化されたソリューションを提案する。
提案手法では,750件のうち618件が真違反であり,76件の偽違反を提起し,さらに524件の要件を正しく識別する。
論文 参考訳(メタデータ) (2022-09-20T13:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。