論文の概要: An Empirical Study on LLM-based Classification of Requirements-related Provisions in Food-safety Regulations
- arxiv url: http://arxiv.org/abs/2501.14683v1
- Date: Fri, 24 Jan 2025 17:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:46.666427
- Title: An Empirical Study on LLM-based Classification of Requirements-related Provisions in Food-safety Regulations
- Title(参考訳): 食品安全規制における要件関連規定のLCMに基づく分類に関する実証的研究
- Authors: Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot,
- Abstract要約: 食品安全規制に関する基礎理論研究を行う。
我々は,システムやソフトウェア要件に密接な関係を持つ食品安全概念の概念的特徴を開発する。
本稿では,2種類の大言語モデル(LLM)が法的規定を自動分類する効果について検討する。
- 参考スコア(独自算出の注目度): 3.1776778131016368
- License:
- Abstract: As Industry 4.0 transforms the food industry, the role of software in achieving compliance with food-safety regulations is becoming increasingly critical. Food-safety regulations, like those in many legal domains, have largely been articulated in a technology-independent manner to ensure their longevity and broad applicability. However, this approach leaves a gap between the regulations and the modern systems and software increasingly used to implement them. In this article, we pursue two main goals. First, we conduct a Grounded Theory study of food-safety regulations and develop a conceptual characterization of food-safety concepts that closely relate to systems and software requirements. Second, we examine the effectiveness of two families of large language models (LLMs) -- BERT and GPT -- in automatically classifying legal provisions based on requirements-related food-safety concepts. Our results show that: (a) when fine-tuned, the accuracy differences between the best-performing models in the BERT and GPT families are relatively small. Nevertheless, the most powerful model in our experiments, GPT-4o, still achieves the highest accuracy, with an average Precision of 89% and an average Recall of 87%; (b) few-shot learning with GPT-4o increases Recall to 97% but decreases Precision to 65%, suggesting a trade-off between fine-tuning and few-shot learning; (c) despite our training examples being drawn exclusively from Canadian regulations, LLM-based classification performs consistently well on test provisions from the US, indicating a degree of generalizability across regulatory jurisdictions; and (d) for our classification task, LLMs significantly outperform simpler baselines constructed using long short-term memory (LSTM) networks and automatic keyword extraction.
- Abstract(参考訳): 産業4.0が食品産業を変革するにつれ、食品安全規制の遵守におけるソフトウェアの役割はますます重要になっている。
食品安全規制は、多くの法律分野の規制と同様に、その長寿と幅広い適用性を保証するために、技術に依存しない方法で明確にされてきた。
しかし、このアプローチは規制と現代のシステムと、それらを実装するためにますます使われるソフトウェアの間にギャップを残します。
本稿では,2つの主要な目標を追求する。
まず、食品安全規制に関する基礎理論研究を行い、システムやソフトウェア要件に密接な関係を持つ食品安全概念の概念的特徴を開発する。
次に,大規模言語モデル (LLM) の2つのファミリーであるBERT と GPT の有効性について検討した。
私たちの結果はこう示しています。
(a)微調整では,BERTファミリーとGPTファミリーの最高性能モデルの精度差は比較的小さい。
しかしながら、我々の実験でもっとも強力なモデルであるGPT-4oは、平均精度が89%、平均リコールが87%の最高精度を実現している。
b) GPT-4oを用いた少数ショット学習は、リコールを97%に増加させるが、精度を65%に低下させ、微調整と少数ショット学習のトレードオフを示唆する。
(c) カナダの規制から排他的に抽出された訓練例にもかかわらず、LCMに基づく分類は、米国による試験規定において一貫して順調に機能し、規制管轄区域間での一般化可能性の程度を示している。
(d) 分類作業において,LLMは長い短期記憶(LSTM)ネットワークと自動キーワード抽出を用いて構築されたより単純なベースラインを著しく上回っている。
関連論文リスト
- Classification or Prompting: A Case Study on Legal Requirements Traceability [6.411835643029738]
ソフトウェア開発が倫理的懸念に準拠し、公共の安全を優先することを保証するために、新しい規制が継続的に導入されている。
コンプライアンスを示すための前提条件は、ソフトウェア要件を法的規定にトレースすることである。
本稿では,要件と法的規定のトレースリンクを予測するための2つの自動解について検討する。
論文 参考訳(メタデータ) (2025-02-07T13:33:40Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%で上回った。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Enhancing Legal Compliance and Regulation Analysis with Large Language Models [0.0]
本研究では,法律規定を正確に分類し,コンプライアンスチェックを自動化するために,LLM(Large Language Models)の適用について検討する。
以上より, LLMsは, 法的コンプライアンスと規制分析の効率化, 特に手作業量削減, 適切な時間的金融制約下での精度向上に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-26T16:40:49Z) - GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models [14.108788704400643]
GroundCocoa(グラウンドココア)は、これらの推論スキルをフライト予約の現実的な問題に結びつける、語彙的に多様なベンチマークである。
私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。
GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文 参考訳(メタデータ) (2024-04-05T17:36:26Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。