Fugu-MT 論文翻訳(概要): Document Retrieval Augmented Fine-Tuning (DRAFT) for safety-critical software assessments

論文の概要: Document Retrieval Augmented Fine-Tuning (DRAFT) for safety-critical software assessments

arxiv url: http://arxiv.org/abs/2505.01307v1
Date: Fri, 02 May 2025 14:34:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-05 17:21:20.06021
Title: Document Retrieval Augmented Fine-Tuning (DRAFT) for safety-critical software assessments
Title（参考訳）: DRAFT(Document Retrieval Augmented Fine-Tuning)による安全クリティカルソフトウェアアセスメント
Authors: Regan Bolton, Mohammadreza Sheikhfathollahi, Simon Parkinson, Vanessa Vulovic, Gary Bamford, Dan Basher, Howard Parkinson,
Abstract要約: Document Retrieval-Augmented Fine-Tuning (DRAFT) は,大規模言語モデル(LLM)の安全性クリティカルなコンプライアンス評価能力を高める新しいアプローチである。 DRAFTは、新しい微調整フレームワークを導入することで、既存のRetrieval-Augmented Generation (RAG)技術に基づいている。 GPT-4o-miniを用いた実験では、ベースラインモデルよりも7%精度が向上した。
参考スコア（独自算出の注目度）: 0.9894420655516565
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Safety critical software assessment requires robust assessment against complex regulatory frameworks, a process traditionally limited by manual evaluation. This paper presents Document Retrieval-Augmented Fine-Tuning (DRAFT), a novel approach that enhances the capabilities of a large language model (LLM) for safety-critical compliance assessment. DRAFT builds upon existing Retrieval-Augmented Generation (RAG) techniques by introducing a novel fine-tuning framework that accommodates our dual-retrieval architecture, which simultaneously accesses both software documentation and applicable reference standards. To fine-tune DRAFT, we develop a semi-automated dataset generation methodology that incorporates variable numbers of relevant documents with meaningful distractors, closely mirroring real-world assessment scenarios. Experiments with GPT-4o-mini demonstrate a 7% improvement in correctness over the baseline model, with qualitative improvements in evidence handling, response structure, and domain-specific reasoning. DRAFT represents a practical approach to improving compliance assessment systems while maintaining the transparency and evidence-based reasoning essential in regulatory domains.
Abstract（参考訳）: 安全クリティカルソフトウェアアセスメントは、手動による評価によって伝統的に制限される複雑な規制フレームワークに対する堅牢なアセスメントを必要とする。本稿では,大規模言語モデル(LLM)の安全性保証評価能力を高める新しい手法であるDocument Retrieval-Augmented Fine-Tuning(DRAFT)を提案する。 DRAFTは、既存のRetrieval-Augmented Generation (RAG)技術に基づいており、ソフトウェアドキュメントと適用可能な参照標準の両方に同時にアクセス可能な、我々の2つのRetrievalアーキテクチャに対応する新しい微調整フレームワークを導入している。 DRAFTを微調整するために,関連する文書の変動数と意味的障害を組み込んだ半自動データセット生成手法を開発し,実世界の評価シナリオを忠実に反映する。 GPT-4o-miniを用いた実験では、ベースラインモデルよりも7%精度が向上し、エビデンス処理、応答構造、ドメイン固有の推論が質的に改善された。 DRAFTは、規制領域に不可欠な透明性と証拠に基づく推論を維持しつつ、コンプライアンスアセスメントシステムを改善するための実践的なアプローチである。

関連論文リスト

AI-Supported Platform for System Monitoring and Decision-Making in Nuclear Waste Management with Large Language Models [1.6795461001108096]
本稿では,大規模言語モデル(LLM)と文書検索機構を統合したマルチエージェント検索・拡張生成(RAG)システムを提案する。このシステムは、規制決定が事実上基礎を保ち、進化する規制フレームワークに動的に適応することを保証する。
論文参考訳（メタデータ） (2025-05-27T20:29:53Z)
CReSt: A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents [6.359764486371197]
大規模言語モデル(LLM)は近年大きく進歩しているが、実用的検索・拡張生成(RAG)シナリオにおけるそれらの能力の評価は依然として困難である。本稿では,CreSt(構造化文書に対する複雑な推論を伴う検索拡張生成のための総合ベンチマーク)を提案する。 CreStは、構造化文書に対する複雑な推論を必要とする実用的なRAGシナリオをキャプチャするために設計された、英語と韓国語で2,245の人手による注釈付き例で構成されている。
論文参考訳（メタデータ） (2025-05-23T05:56:25Z)
Revisiting Model Inversion Evaluation: From Misleading Standards to Reliable Privacy Assessment [63.07424521895492]
モデル反転(MI)攻撃は、機械学習モデルTへのアクセスを利用して、プライベートトレーニングデータから情報を再構築することを目的としている。このような攻撃に対する標準的な評価フレームワークは、Tと同じタスク設計で訓練された評価モデルEに依存している。このフレームワークはMI研究の進歩を評価するためのデファクトスタンダードとなり、近年のMI攻撃や防衛のほとんどすべてで問題なく使用されている。
論文参考訳（メタデータ） (2025-05-06T13:32:12Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej [5.790242888372048]
以下に、VidhikDastaavejを紹介します。 NyayaShilpは、インドの法律文書に特化された微調整の法的文書生成モデルである。
論文参考訳（メタデータ） (2025-04-04T14:41:50Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
A Methodology for Evaluating RAG Systems: A Case Study On Configuration Dependency Validation [6.544757635738911]
Retrieval-augmented Generation(RAG)は、異なるコンポーネント、設計決定、ドメイン固有の適応の傘である。現在、RAG評価の方法論は一般に受け入れられていないが、この技術への関心は高まりつつある。本稿では,RAGシステムの健全かつ信頼性の高い評価手法の最初の青写真を提案する。
論文参考訳（メタデータ） (2024-10-11T13:36:13Z)
Improving Legal Entity Recognition Using a Hybrid Transformer Model and Semantic Filtering Approach [0.0]
本稿では,法律テキスト処理用に微調整された変圧器モデルであるLegal-BERTの精度と精度を向上させる新しいハイブリッドモデルを提案する。 15,000の注釈付き法律文書のデータセット上で、F1スコア93.4%を達成し、従来の手法よりも精度とリコールが大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-10-11T04:51:28Z)
VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。 VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文参考訳（メタデータ） (2024-08-16T21:59:59Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。