論文の概要: Classification or Prompting: A Case Study on Legal Requirements Traceability
- arxiv url: http://arxiv.org/abs/2502.04916v2
- Date: Tue, 11 Feb 2025 13:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 13:59:04.919238
- Title: Classification or Prompting: A Case Study on Legal Requirements Traceability
- Title(参考訳): 分類・プロンプト:法的要件のトレーサビリティに関する事例研究
- Authors: Romina Etezadi, Sallam Abualhaija, Chetan Arora, Lionel Briand,
- Abstract要約: ソフトウェア開発が倫理的懸念に準拠し、公共の安全を優先することを保証するために、新しい規制が継続的に導入されている。
コンプライアンスを示すための前提条件は、ソフトウェア要件を法的規定にトレースすることである。
本稿では,要件と法的規定のトレースリンクを予測するための2つの自動解について検討する。
- 参考スコア(独自算出の注目度): 6.411835643029738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New regulations are continuously introduced to ensure that software development complies with the ethical concerns and prioritizes public safety. A prerequisite for demonstrating compliance involves tracing software requirements to legal provisions. Requirements traceability is a fundamental task where requirements engineers are supposed to analyze technical requirements against target artifacts, often under limited time budget. Doing this analysis manually for complex systems with hundreds of requirements is infeasible. The legal dimension introduces additional challenges that only exacerbate manual effort. In this paper, we investigate two automated solutions based on large language models (LLMs) to predict trace links between requirements and legal provisions. The first solution, Kashif, is a classifier that leverages sentence transformers. The second solution prompts a recent generative LLM based on Rice, a prompt engineering framework. On a benchmark dataset, we empirically evaluate Kashif and compare it against a baseline classifier from the literature. Kashif can identify trace links with an average recall of ~67%, outperforming the baseline with a substantial gain of 54 percentage points (pp) in recall. However, on unseen, more complex requirements documents traced to the European general data protection regulation (GDPR), Kashif performs poorly, yielding an average recall of 15%. On the same documents, however, our Rice-based solution yields an average recall of 84%, with a remarkable gain of about 69 pp over Kashif. Our results suggest that requirements traceability in the legal context cannot be simply addressed by building classifiers, as such solutions do not generalize and fail to perform well on complex regulations and requirements. Resorting to generative LLMs, with careful prompt engineering, is thus a more promising alternative.
- Abstract(参考訳): ソフトウェア開発が倫理的懸念に準拠し、公共の安全を優先することを保証するために、新しい規制が継続的に導入されている。
コンプライアンスを示すための前提条件は、ソフトウェア要件を法的規定にトレースすることである。
要件トレーサビリティは、要件エンジニアが目標とするアーティファクトに対する技術的要件を、しばしば制限された時間予算の下で分析する、基本的なタスクである。
この分析を数百の要件を持つ複雑なシステムに対して手動で行うことは不可能である。
法的な側面は、手作業だけを悪化させる、追加の課題をもたらします。
本稿では,大規模言語モデル(LLM)に基づく2つの自動解について検討し,要件と法的規定のトレースリンクを予測する。
第一の解である Kashif は文変換器を利用する分類器である。
第2のソリューションは、迅速なエンジニアリングフレームワークであるLiceをベースにした、最近のジェネレーティブなLLMを誘導する。
ベンチマークデータセットでは、Kashifを実証的に評価し、文献のベースライン分類器と比較する。
Kashifは平均67%のリコールでトレースリンクを識別でき、ベースラインを上回り、リコールでは54ポイント(pp)の実質的な増加を達成している。
しかし、欧州一般データ保護規則(GDPR)にさかのぼる、より複雑な要求文書では、Kashifはパフォーマンスが悪く、平均15%のリコールが得られる。
しかし、同じ文書では、我々のライスベースのソリューションは平均84%のリコールとなり、カシフよりも約69pp上昇した。
以上の結果から, 法的文脈における要求トレーサビリティは, 複雑な規制や要件に対して, 一般化せず, うまく機能しないため, 単に分類器を構築するだけでは対処できないことが示唆された。
生産的なLLMへの置き換えは、慎重な急進的なエンジニアリングによって、より有望な代替手段となる。
関連論文リスト
- TVR: Automotive System Requirement Traceability Validation and Recovery Through Retrieval-Augmented Generation [7.50061902435987]
利害関係者の要求とシステム要件の間のトレーサビリティは、一貫性、正確性、規制の遵守を保証するために不可欠である。
既存のアプローチは、ステークホルダーとシステム要件の間のトレーサビリティに対処せず、オープンソースデータに依存し、エンジニアが確立した手動リンクの検証に対処しない。
本稿では,主に自動車システムを対象とした要求トレーサビリティ検証とリカバリ手法であるTVRを紹介する。
論文 参考訳(メタデータ) (2025-04-21T20:37:23Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety [0.7373617024876725]
本研究では、ChatGPT、GoogleのVertex AI、ORNL Retrieval Augmented Generation augmented LLaMA 2、LLaMAの3つの微調整生成モデルの性能を評価する。
経路計画と許容要件に関連する現実的なクエリを100個開発した。
その結果、RAGで強化されたLLaMAモデルはVertex AIとChatGPTを大きく上回っており、より詳細で一般的に正確な情報を提供していることがわかった。
論文 参考訳(メタデータ) (2025-04-09T16:37:03Z) - SUNAR: Semantic Uncertainty based Neighborhood Aware Retrieval for Complex QA [2.7703990035016868]
SUNARは、大規模言語モデルを利用して、近隣の認識検索プロセスをガイドする新しいアプローチである。
2つの複雑なQAデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
以上の結果から,SUNARは既存の検索と推論のベースラインを大幅に上回り,最大31.84%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-03-23T08:50:44Z) - An Empirical Study on LLM-based Classification of Requirements-related Provisions in Food-safety Regulations [3.1776778131016368]
食品安全規制に関する基礎理論研究を行う。
我々は,システムやソフトウェア要件に密接な関係を持つ食品安全概念の概念的特徴を開発する。
本稿では,2種類の大言語モデル(LLM)が法的規定を自動分類する効果について検討する。
論文 参考訳(メタデータ) (2025-01-24T17:59:14Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Methods for Legal Citation Prediction in the Age of LLMs: An Australian Law Case Study [9.30538764385435]
我々は、関連する法律や前例を正しく特定し、引用することが重要であるオーストラリアの法律文脈における法的引用予測の問題に焦点を当てる。
本研究は, ドメイン固有の事前訓練だけでは, 法定事前訓練後であっても, 良好な励磁精度が得られていないことを示唆する。
対照的に、タスク固有のデータセットのインストラクションチューニングは、すべての設定で最高の結果に達するパフォーマンスを劇的に向上させます。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Rethinking Legal Compliance Automation: Opportunities with Large Language Models [2.9088208525097365]
我々は、(テキスト)法的アーティファクトの試験は、まず文よりも広い文脈で行うべきであると論じる。
これらの制約に対処するために,コンプライアンス分析手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T17:10:27Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Status Quo and Problems of Requirements Engineering for Machine
Learning: Results from an International Survey [7.164324501049983]
要求工学(RE)は、機械学習対応システムにおいて多くの問題を解決するのに役立つ。
我々は,ML対応システムにおけるREの現状と問題点について,実践者の知見を収集する調査を行った。
MLプロジェクトでは,REプラクティスに有意な違いが認められた。
論文 参考訳(メタデータ) (2023-10-10T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。