論文の概要: Classification or Prompting: A Case Study on Legal Requirements Traceability
- arxiv url: http://arxiv.org/abs/2502.04916v1
- Date: Fri, 07 Feb 2025 13:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:45.085761
- Title: Classification or Prompting: A Case Study on Legal Requirements Traceability
- Title(参考訳): 分類・プロンプト:法的要件のトレーサビリティに関する事例研究
- Authors: Romina Etezadi, Sallam Abualhaija, Chetan Arora, Lionel Briand,
- Abstract要約: ソフトウェア開発が倫理的懸念に準拠し、公共の安全を優先することを保証するために、新しい規制が継続的に導入されている。
コンプライアンスを示すための前提条件は、ソフトウェア要件を法的規定にトレースすることである。
本稿では,要件と法的規定のトレースリンクを予測するための2つの自動解について検討する。
- 参考スコア(独自算出の注目度): 6.411835643029738
- License:
- Abstract: New regulations are continuously introduced to ensure that software development complies with the ethical concerns and prioritizes public safety. A prerequisite for demonstrating compliance involves tracing software requirements to legal provisions. Requirements traceability is a fundamental task where requirements engineers are supposed to analyze technical requirements against target artifacts, often under limited time budget. Doing this analysis manually for complex systems with hundreds of requirements is infeasible. The legal dimension introduces additional challenges that only exacerbate manual effort. In this paper, we investigate two automated solutions based on large language models (LLMs) to predict trace links between requirements and legal provisions. The first solution, Kashif, is a classifier that leverages sentence transformers. The second solution prompts a recent generative LLM based on Rice, a prompt engineering framework. On a benchmark dataset, we empirically evaluate Kashif and compare it against a baseline classifier from the literature. Kashif can identify trace links with an average recall of ~67%, outperforming the baseline with a substantial gain of 54 percentage points (pp) in recall. However, on unseen, more complex requirements documents traced to the European general data protection regulation (GDPR), Kashif performs poorly, yielding an average recall of 15%. On the same documents, however, our Rice-based solution yields an average recall of 84%, with a remarkable gain of about 69 pp over Kashif. Our results suggest that requirements traceability in the legal context cannot be simply addressed by building classifiers, as such solutions do not generalize and fail to perform well on complex regulations and requirements. Resorting to generative LLMs, with careful prompt engineering, is thus a more promising alternative.
- Abstract(参考訳): ソフトウェア開発が倫理的懸念に準拠し、公共の安全を優先することを保証するために、新しい規制が継続的に導入されている。
コンプライアンスを示すための前提条件は、ソフトウェア要件を法的規定にトレースすることである。
要件トレーサビリティは、要件エンジニアが目標とするアーティファクトに対する技術的要件を、しばしば制限された時間予算の下で分析する、基本的なタスクである。
この分析を数百の要件を持つ複雑なシステムに対して手動で行うことは不可能である。
法的な側面は、手作業だけを悪化させる、追加の課題をもたらします。
本稿では,大規模言語モデル(LLM)に基づく2つの自動解について検討し,要件と法的規定のトレースリンクを予測する。
第一の解である Kashif は文変換器を利用する分類器である。
第2のソリューションは、迅速なエンジニアリングフレームワークであるLiceをベースにした、最近のジェネレーティブなLLMを誘導する。
ベンチマークデータセットでは、Kashifを実証的に評価し、文献のベースライン分類器と比較する。
Kashifは平均67%のリコールでトレースリンクを識別でき、ベースラインを上回り、リコールでは54ポイント(pp)の実質的な増加を達成している。
しかし、欧州一般データ保護規則(GDPR)にさかのぼる、より複雑な要求文書では、Kashifはパフォーマンスが悪く、平均15%のリコールが得られる。
しかし、同じ文書では、我々のライスベースのソリューションは平均84%のリコールとなり、カシフよりも約69pp上昇した。
以上の結果から, 法的文脈における要求トレーサビリティは, 複雑な規制や要件に対して, 一般化せず, うまく機能しないため, 単に分類器を構築するだけでは対処できないことが示唆された。
生産的なLLMへの置き換えは、慎重な急進的なエンジニアリングによって、より有望な代替手段となる。
関連論文リスト
- An Empirical Study on LLM-based Classification of Requirements-related Provisions in Food-safety Regulations [3.1776778131016368]
食品安全規制に関する基礎理論研究を行う。
我々は,システムやソフトウェア要件に密接な関係を持つ食品安全概念の概念的特徴を開発する。
本稿では,2種類の大言語モデル(LLM)が法的規定を自動分類する効果について検討する。
論文 参考訳(メタデータ) (2025-01-24T17:59:14Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%で上回った。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Methods for Legal Citation Prediction in the Age of LLMs: An Australian Law Case Study [9.30538764385435]
我々は、関連する法律や前例を正しく特定し、引用することが重要であるオーストラリアの法律文脈における法的引用予測の問題に焦点を当てる。
本研究は, ドメイン固有の事前訓練だけでは, 法定事前訓練後であっても, 良好な励磁精度が得られていないことを示唆する。
対照的に、タスク固有のデータセットのインストラクションチューニングは、すべての設定で最高の結果に達するパフォーマンスを劇的に向上させます。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Rethinking Legal Compliance Automation: Opportunities with Large Language Models [2.9088208525097365]
我々は、(テキスト)法的アーティファクトの試験は、まず文よりも広い文脈で行うべきであると論じる。
これらの制約に対処するために,コンプライアンス分析手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T17:10:27Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Status Quo and Problems of Requirements Engineering for Machine
Learning: Results from an International Survey [7.164324501049983]
要求工学(RE)は、機械学習対応システムにおいて多くの問題を解決するのに役立つ。
我々は,ML対応システムにおけるREの現状と問題点について,実践者の知見を収集する調査を行った。
MLプロジェクトでは,REプラクティスに有意な違いが認められた。
論文 参考訳(メタデータ) (2023-10-10T15:53:50Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。