論文の概要: An Industrial-Scale Retrieval-Augmented Generation Framework for Requirements Engineering: Empirical Evaluation with Automotive Manufacturing Data
- arxiv url: http://arxiv.org/abs/2603.20534v2
- Date: Tue, 24 Mar 2026 17:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 15:07:29.986281
- Title: An Industrial-Scale Retrieval-Augmented Generation Framework for Requirements Engineering: Empirical Evaluation with Automotive Manufacturing Data
- Title(参考訳): 要求工学のための産業規模検索型付加生成フレームワーク:自動車製造データを用いた実証評価
- Authors: Muhammad Khalid, Yilmaz Uygun,
- Abstract要約: Retrieval-augmented Generation (RAG) は知識集約的なタスクを約束するが、産業用REのRAGを評価する以前の研究は行われていない。
本稿では,産業要求自動化のためのRAGの総合的実証評価について,自動車製造文書を用いた総合評価を行った。
RAGは、完全なトレーサビリティを持つ98.2%の抽出精度を達成し、それぞれ24.4%、19.6%のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Requirements engineering in Industry 4.0 faces critical challenges with heterogeneous, unstructured documentation spanning technical specifications, supplier lists, and compliance standards. While retrieval-augmented generation (RAG) shows promise for knowledge-intensive tasks, no prior work has evaluated RAG on authentic industrial RE workflows using comprehensive production-grade performance metrics. This paper presents a comprehensive empirical evaluation of RAG for industrial requirements engineering automation using authentic automotive manufacturing documentation comprising 669 requirements across four specification standards (MBN 9666-1, MBN 9666-2, BQF 9666-5, MBN 9666-9) spanning 2015-2023, plus 49 supplier qualifications with extensive supporting documentation. Through controlled comparisons with BERT-based and ungrounded LLM approaches, the framework achieves 98.2% extraction accuracy with complete traceability, outperforming baselines by 24.4% and 19.6%, respectively. Hybrid semantic-lexical retrieval achieves MRR of 0.847. Expert quality assessment averaged 4.32/5.0 across five dimensions. The evaluation demonstrates 83% reduction in manual analysis time and 47% cost savings through multi-provider LLM orchestration. Ablation studies quantify individual component contributions. Longitudinal analysis reveals a 55% reduction in requirement volume coupled with 1,800% increase in IT security focus, identifying 10 legacy suppliers (20.4%) requiring requalification, representing potential $2.3M in avoided contract penalties.
- Abstract(参考訳): 業界における要件エンジニアリング 4.0は、技術仕様、サプライヤリスト、コンプライアンス標準にまたがる異質で非構造的なドキュメントにおいて、重大な課題に直面している。
検索強化世代(RAG)は、知識集約的なタスクを約束するが、包括的な生産レベルのパフォーマンス指標を使用して、産業用REワークフローのRAGを評価する以前の作業は行われていない。
本稿では,2015~2023年までの4つの規格(MBN 9666-1, MBN 9666-2, BQF 9666-5, MBN 9666-9)の669の要件と,広範な支援文書を含む49のサプライヤ資格を含む,産業要求自動化のためのRAGの総合的実証評価を行う。
BERTベースのLLMアプローチと非基底LLMアプローチとの制御された比較により、このフレームワークは98.2%の抽出精度を完全なトレーサビリティで達成し、ベースラインをそれぞれ24.4%、19.6%上回った。
ハイブリッドセマンティックレキシカル検索は、MRRが0.847に達する。
専門家の質評価は5次元で平均4.32/5.0であった。
この評価は,マルチプロジェクタLLMオーケストレーションによる手動解析時間を83%削減し,コストを47%削減することを示した。
アブレーション研究は個々の成分の寄与を定量化する。
縦断分析により、要求量の55%が減少し、ITセキュリティの焦点が1,800%増加した。
関連論文リスト
- CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production [52.85500933801205]
CharacterFlywheelは、大規模言語モデル(LLM)を生産的なソーシャルチャットアプリケーションで改善するための反復的なプロセスである。
内部および外部のリアルタイムトラフィックからのデータを使用して、15世代にわたってモデルを洗練しました。
7日間のA/Bテストを行い、一貫したエンゲージメントの改善を示した。
論文 参考訳(メタデータ) (2026-03-02T15:27:31Z) - Intelligent Reservoir Decision Support: An Integrated Framework Combining Large Language Models, Advanced Prompt Engineering, and Multimodal Data Fusion for Real-Time Petroleum Operations [0.0]
本研究では,最新の大規模言語モデルと先進的な技術と総合的な貯水池解析のためのマルチモーダルデータ融合を組み合わせた新しい統合フレームワークを提案する。
このフレームワークは、5万以上の石油工学文書、チェーン・オブ・ソート推論、および高速場適応のための数ショット学習を備えたドメイン固有検索強化世代(RAG)を実装している。
このシステムは、評価中のリスクの高いインシデントを伴わず、96.2%の安全性を確保しながら、秒以下の応答時間を達成する。
論文 参考訳(メタデータ) (2025-09-14T18:13:27Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - QUEST: Quality-aware Semi-supervised Table Extraction for Business Documents [0.1516287840715525]
QUESTはビジネス文書のための品質対応の半教師付きテーブル抽出フレームワークである。
QUESTは、信頼度基準に頼るのではなく、F1スコアを予測するために訓練された抽出テーブルの構造的特徴と文脈的特徴を評価する。
論文 参考訳(メタデータ) (2025-06-17T14:25:44Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。
ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - Classification or Prompting: A Case Study on Legal Requirements Traceability [4.629156733452248]
法的要件のトレーサビリティは、エンジニアがターゲットのアーティファクトに対する技術的要件を分析するための重要なタスクである。
本稿では,言語モデルに基づく2つの自動解について検討する。
最初のソリューションであるKashifは、文変換器と意味的類似性を利用する分類器である。
第2のソリューションであるRICE_LRTは、プロンプトエンジニアリングフレームワークであるRICEをベースにした、最近のジェネレーティブLLMを誘導する。
論文 参考訳(メタデータ) (2025-02-07T13:33:40Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。