論文の概要: Classification or Prompting: A Case Study on Legal Requirements Traceability
- arxiv url: http://arxiv.org/abs/2502.04916v4
- Date: Fri, 22 Aug 2025 14:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 12:20:05.354614
- Title: Classification or Prompting: A Case Study on Legal Requirements Traceability
- Title(参考訳): 分類・プロンプト:法的要件のトレーサビリティに関する事例研究
- Authors: Romina Etezadi, Sallam Abualhaija, Chetan Arora, Lionel Briand,
- Abstract要約: 法的要件のトレーサビリティは、エンジニアがターゲットのアーティファクトに対する技術的要件を分析するための重要なタスクである。
本稿では,言語モデルに基づく2つの自動解について検討する。
最初のソリューションであるKashifは、文変換器と意味的類似性を利用する分類器である。
第2のソリューションであるRICE_LRTは、プロンプトエンジニアリングフレームワークであるRICEをベースにした、最近のジェネレーティブLLMを誘導する。
- 参考スコア(独自算出の注目度): 4.629156733452248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New regulations are introduced to ensure software development aligns with ethical concerns and protects public safety. Showing compliance requires tracing requirements to legal provisions. Requirements traceability is a key task where engineers must analyze technical requirements against target artifacts, often within limited time. Manually analyzing complex systems with hundreds of requirements is infeasible. The legal dimension adds challenges that increase effort. In this paper, we investigate two automated solutions based on language models, including large ones (LLMs). The first solution, Kashif, is a classifier that leverages sentence transformers and semantic similarity. The second solution, RICE_LRT, prompts a recent generative LLM based on RICE, a prompt engineering framework. On a benchmark dataset, we empirically evaluate Kashif and compare it against five different baseline classifiers from the literature. Kashif can identify trace links with a recall of 67%, precision of 50%, and F2 score of 63%, outperforming the best baseline by a substantial margin of 41 percentage points (pp) in F2. However, on unseen, more complex requirements documents traced to the European General Data Protection Regulation (GDPR), Kashif performs poorly, yielding an average recall of 15%, an average precision of 10%, and an average F2 score of 13.5%. On the same documents, however, our RICE solution yields an average recall of 84%, an average precision of 30%, and an average F2 score of 61%. RICE achieved a remarkable improvement of 47.5 pp over Kashif in terms of F2 score. Our results suggest that requirements traceability in the legal context cannot be simply addressed by building classifiers, as such solutions do not generalize and fail to perform well on complex regulations and requirements. Resorting to generative LLMs, with careful prompt engineering, is thus a more promising alternative.
- Abstract(参考訳): ソフトウェア開発が倫理的懸念と整合し、公共の安全を保護するために、新しい規制が導入されている。
コンプライアンスを示すには、法的規定への要求をトレースする必要がある。
要求トレーサビリティは、エンジニアがターゲットのアーティファクトに対する技術的要件を、しばしば限られた時間内に分析しなければならない重要なタスクである。
複雑なシステムを数百の要件で手動で分析することは不可能である。
法的次元は、努力を増す挑戦を追加する。
本稿では,言語モデルに基づく2つの自動解について検討する。
最初のソリューションであるKashifは、文変換器と意味的類似性を利用する分類器である。
第2のソリューションであるRICE_LRTは、プロンプトエンジニアリングフレームワークであるRICEをベースにした、最近のジェネレーティブLLMを誘導する。
ベンチマークデータセットでは、Kashifを実証的に評価し、文献の5つの異なるベースライン分類器と比較する。
カシフは67%のリコール、50%の精度、F2スコアの63%のトレースリンクを識別でき、F2の41パーセント(pp)のマージンで最高のベースラインを上回っている。
しかし、欧州一般データ保護規則(GDPR)にさかのぼるより複雑な要求文書では、カシフ平均リコールは15%、平均精度は10%、平均F2スコアは13.5%である。
しかし、同じ文書上では、我々のRICEソリューションは平均リコール率84%、平均精度30%、平均F2スコア61%となっている。
RICEはF2得点でカシフを47.5pp上回った。
以上の結果から, 法的文脈における要求トレーサビリティは, 複雑な規制や要件に対して, 一般化せず, うまく機能しないため, 単に分類器を構築するだけでは対処できないことが示唆された。
生産的なLLMへの置き換えは、慎重な急進的なエンジニアリングによって、より有望な代替手段となる。
関連論文リスト
- Evaluating and Improving Large Language Models for Competitive Program Generation [18.564450345359468]
本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。
2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。
我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
論文 参考訳(メタデータ) (2025-06-28T17:18:23Z) - ReqBrain: Task-Specific Instruction Tuning of LLMs for AI-Assisted Requirements Generation [4.475603469482274]
ソフトウェアエンジニアはチャットベースのセッションを通じてReqBrainと関わり、ソフトウェア要件を自動的に生成できる。
最高性能のZephyr-7b-betaは、BERTスコアとFRUGALスコアを使用して89.30%のFlを達成した。
論文 参考訳(メタデータ) (2025-05-23T08:45:46Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Automated Repair of Ambiguous Natural Language Requirements [9.379494157034083]
ソフトウェア工学における大規模言語モデル(LLM)は、自然言語(NL)の役割を増幅している。
我々は、コード生成の不確実性を低減してアプローチするあいまいなNL要求の自動修復を導入する。
我々の結果は、SpecFixが要求の23.93%を修正し、修正された要求に対して33.66%のモデルPass@1が改善されたことを示している。
論文 参考訳(メタデータ) (2025-05-12T06:47:53Z) - TVR: Automotive System Requirement Traceability Validation and Recovery Through Retrieval-Augmented Generation [7.50061902435987]
利害関係者の要求とシステム要件の間のトレーサビリティは、一貫性、正確性、規制の遵守を保証するために不可欠である。
既存のアプローチは、ステークホルダーとシステム要件の間のトレーサビリティに対処せず、オープンソースデータに依存し、エンジニアが確立した手動リンクの検証に対処しない。
本稿では,主に自動車システムを対象とした要求トレーサビリティ検証とリカバリ手法であるTVRを紹介する。
論文 参考訳(メタデータ) (2025-04-21T20:37:23Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety [0.7373617024876725]
本研究では、ChatGPT、GoogleのVertex AI、ORNL Retrieval Augmented Generation augmented LLaMA 2、LLaMAの3つの微調整生成モデルの性能を評価する。
経路計画と許容要件に関連する現実的なクエリを100個開発した。
その結果、RAGで強化されたLLaMAモデルはVertex AIとChatGPTを大きく上回っており、より詳細で一般的に正確な情報を提供していることがわかった。
論文 参考訳(メタデータ) (2025-04-09T16:37:03Z) - SUNAR: Semantic Uncertainty based Neighborhood Aware Retrieval for Complex QA [2.7703990035016868]
SUNARは、大規模言語モデルを利用して、近隣の認識検索プロセスをガイドする新しいアプローチである。
2つの複雑なQAデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
以上の結果から,SUNARは既存の検索と推論のベースラインを大幅に上回り,最大31.84%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-03-23T08:50:44Z) - An Empirical Study on LLM-based Classification of Requirements-related Provisions in Food-safety Regulations [3.1776778131016368]
食品安全規制に関する基礎理論研究を行う。
我々は,システムやソフトウェア要件に密接な関係を持つ食品安全概念の概念的特徴を開発する。
本稿では,2種類の大言語モデル(LLM)が法的規定を自動分類する効果について検討する。
論文 参考訳(メタデータ) (2025-01-24T17:59:14Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Methods for Legal Citation Prediction in the Age of LLMs: An Australian Law Case Study [9.30538764385435]
我々は、関連する法律や前例を正しく特定し、引用することが重要であるオーストラリアの法律文脈における法的引用予測の問題に焦点を当てる。
本研究は, ドメイン固有の事前訓練だけでは, 法定事前訓練後であっても, 良好な励磁精度が得られていないことを示唆する。
対照的に、タスク固有のデータセットのインストラクションチューニングは、すべての設定で最高の結果に達するパフォーマンスを劇的に向上させます。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Rethinking Legal Compliance Automation: Opportunities with Large Language Models [2.9088208525097365]
我々は、(テキスト)法的アーティファクトの試験は、まず文よりも広い文脈で行うべきであると論じる。
これらの制約に対処するために,コンプライアンス分析手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T17:10:27Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Status Quo and Problems of Requirements Engineering for Machine
Learning: Results from an International Survey [7.164324501049983]
要求工学(RE)は、機械学習対応システムにおいて多くの問題を解決するのに役立つ。
我々は,ML対応システムにおけるREの現状と問題点について,実践者の知見を収集する調査を行った。
MLプロジェクトでは,REプラクティスに有意な違いが認められた。
論文 参考訳(メタデータ) (2023-10-10T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。