論文の概要: Document Retrieval Augmented Fine-Tuning (DRAFT) for safety-critical software assessments
- arxiv url: http://arxiv.org/abs/2505.01307v1
- Date: Fri, 02 May 2025 14:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.06021
- Title: Document Retrieval Augmented Fine-Tuning (DRAFT) for safety-critical software assessments
- Title(参考訳): DRAFT(Document Retrieval Augmented Fine-Tuning)による安全クリティカルソフトウェアアセスメント
- Authors: Regan Bolton, Mohammadreza Sheikhfathollahi, Simon Parkinson, Vanessa Vulovic, Gary Bamford, Dan Basher, Howard Parkinson,
- Abstract要約: Document Retrieval-Augmented Fine-Tuning (DRAFT) は,大規模言語モデル(LLM)の安全性クリティカルなコンプライアンス評価能力を高める新しいアプローチである。
DRAFTは、新しい微調整フレームワークを導入することで、既存のRetrieval-Augmented Generation (RAG)技術に基づいている。
GPT-4o-miniを用いた実験では、ベースラインモデルよりも7%精度が向上した。
- 参考スコア(独自算出の注目度): 0.9894420655516565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety critical software assessment requires robust assessment against complex regulatory frameworks, a process traditionally limited by manual evaluation. This paper presents Document Retrieval-Augmented Fine-Tuning (DRAFT), a novel approach that enhances the capabilities of a large language model (LLM) for safety-critical compliance assessment. DRAFT builds upon existing Retrieval-Augmented Generation (RAG) techniques by introducing a novel fine-tuning framework that accommodates our dual-retrieval architecture, which simultaneously accesses both software documentation and applicable reference standards. To fine-tune DRAFT, we develop a semi-automated dataset generation methodology that incorporates variable numbers of relevant documents with meaningful distractors, closely mirroring real-world assessment scenarios. Experiments with GPT-4o-mini demonstrate a 7% improvement in correctness over the baseline model, with qualitative improvements in evidence handling, response structure, and domain-specific reasoning. DRAFT represents a practical approach to improving compliance assessment systems while maintaining the transparency and evidence-based reasoning essential in regulatory domains.
- Abstract(参考訳): 安全クリティカルソフトウェアアセスメントは、手動による評価によって伝統的に制限される複雑な規制フレームワークに対する堅牢なアセスメントを必要とする。
本稿では,大規模言語モデル(LLM)の安全性保証評価能力を高める新しい手法であるDocument Retrieval-Augmented Fine-Tuning(DRAFT)を提案する。
DRAFTは、既存のRetrieval-Augmented Generation (RAG)技術に基づいており、ソフトウェアドキュメントと適用可能な参照標準の両方に同時にアクセス可能な、我々の2つのRetrievalアーキテクチャに対応する新しい微調整フレームワークを導入している。
DRAFTを微調整するために,関連する文書の変動数と意味的障害を組み込んだ半自動データセット生成手法を開発し,実世界の評価シナリオを忠実に反映する。
GPT-4o-miniを用いた実験では、ベースラインモデルよりも7%精度が向上し、エビデンス処理、応答構造、ドメイン固有の推論が質的に改善された。
DRAFTは、規制領域に不可欠な透明性と証拠に基づく推論を維持しつつ、コンプライアンスアセスメントシステムを改善するための実践的なアプローチである。
関連論文リスト
- Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej [5.790242888372048]
以下に、VidhikDastaavejを紹介します。
NyayaShilpは、インドの法律文書に特化された微調整の法的文書生成モデルである。
論文 参考訳(メタデータ) (2025-04-04T14:41:50Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - A Methodology for Evaluating RAG Systems: A Case Study On Configuration Dependency Validation [6.544757635738911]
Retrieval-augmented Generation(RAG)は、異なるコンポーネント、設計決定、ドメイン固有の適応の傘である。
現在、RAG評価の方法論は一般に受け入れられていないが、この技術への関心は高まりつつある。
本稿では,RAGシステムの健全かつ信頼性の高い評価手法の最初の青写真を提案する。
論文 参考訳(メタデータ) (2024-10-11T13:36:13Z) - Improving Legal Entity Recognition Using a Hybrid Transformer Model and Semantic Filtering Approach [0.0]
本稿では,法律テキスト処理用に微調整された変圧器モデルであるLegal-BERTの精度と精度を向上させる新しいハイブリッドモデルを提案する。
15,000の注釈付き法律文書のデータセット上で、F1スコア93.4%を達成し、従来の手法よりも精度とリコールが大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-10-11T04:51:28Z) - VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。
VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文 参考訳(メタデータ) (2024-08-16T21:59:59Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。