論文の概要: RAGuard: A Novel Approach for in-context Safe Retrieval Augmented Generation for LLMs
- arxiv url: http://arxiv.org/abs/2509.03768v1
- Date: Wed, 03 Sep 2025 23:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.994048
- Title: RAGuard: A Novel Approach for in-context Safe Retrieval Augmented Generation for LLMs
- Title(参考訳): RAGuard: LLMのためのコンテキスト内安全な検索生成のための新しいアプローチ
- Authors: Connor Walker, Koorosh Aslansefat, Mohammad Naveed Akram, Yiannis Papadopoulos,
- Abstract要約: RAGuardは,安全クリティカルな文書と技術マニュアルを統合した拡張型検索・拡張生成フレームワークである。
我々は,Sparse(BM25),Dense Passage Retrieval(Dense Passage Retrieval),およびハイブリッド検索パラダイムを評価し,Technical Recall@KとSafety Recall@Kを測定した。
- 参考スコア(独自算出の注目度): 0.4666493857924357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accuracy and safety are paramount in Offshore Wind (OSW) maintenance, yet conventional Large Language Models (LLMs) often fail when confronted with highly specialised or unexpected scenarios. We introduce RAGuard, an enhanced Retrieval-Augmented Generation (RAG) framework that explicitly integrates safety-critical documents alongside technical manuals.By issuing parallel queries to two indices and allocating separate retrieval budgets for knowledge and safety, RAGuard guarantees both technical depth and safety coverage. We further develop a SafetyClamp extension that fetches a larger candidate pool, "hard-clamping" exact slot guarantees to safety. We evaluate across sparse (BM25), dense (Dense Passage Retrieval) and hybrid retrieval paradigms, measuring Technical Recall@K and Safety Recall@K. Both proposed extensions of RAG show an increase in Safety Recall@K from almost 0\% in RAG to more than 50\% in RAGuard, while maintaining Technical Recall above 60\%. These results demonstrate that RAGuard and SafetyClamp have the potential to establish a new standard for integrating safety assurance into LLM-powered decision support in critical maintenance contexts.
- Abstract(参考訳): オフショア・ウィンド(OSW)のメンテナンスでは、正確さと安全性が最重要であるが、従来のLarge Language Models(LLM)は、非常に特殊なシナリオや予期せぬシナリオに直面すると、しばしば失敗する。
我々は,2つの指標に並列クエリを発行し,知識と安全性のための別々の検索予算を割り当てることで,RAGuardは技術深度と安全性の両方を保証します。
さらに、より大きな候補プールを取得できるSafetyClamp拡張を開発し、正確なスロット保証を安全に"ハードクランプ"します。
我々は,Sparse(BM25),Dense Passage Retrieval(Dense Passage Retrieval),およびハイブリッド検索パラダイムを評価し,Technical Recall@KとSafety Recall@Kを測定した。
RAGの2つの拡張では、安全リコール@KがRAGuardの約0倍から50倍に増加し、技術的リコールは60倍に増加した。
これらの結果から, RAGuard と SafetyClamp は, 安全保証を LLM による意思決定支援に統合するための新たな標準を, 重要な保守状況において確立する可能性が示唆された。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Securing RAG: A Risk Assessment and Mitigation Framework [0.0]
Retrieval Augmented Generation (RAG)は、ユーザ向けNLPアプリケーションのためのデファクト業界標準として登場した。
本稿では,RAGパイプラインの脆弱性を概観し,データ前処理からLLM(Large Language Models)の統合に至るまで,攻撃面の概要を述べる。
論文 参考訳(メタデータ) (2025-05-13T16:39:00Z) - Secure Multifaceted-RAG for Enterprise: Hybrid Knowledge Retrieval with Security Filtering [8.618945530676614]
既存の検索機能拡張生成システム(RAG)は,検索範囲の限定とデータセキュリティリスクのため,エンタープライズ環境での課題に直面している。
本稿では,Secure Multifaceted-RAG(SecMulti-RAG)フレームワークを提案する。
自動車業界におけるレポート生成タスクの評価において,SecMulti-RAGは従来のRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-04-18T02:51:29Z) - MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Stacked Universal Successor Feature Approximators for Safety in Reinforcement Learning [1.2534672170380357]
ソフトアクター・クリティック(SAC)に適応した普遍的後継特徴近似(USFA)の積み重ね連続制御の有用性について検討した。
本手法は,実行時保証(RTA)コントローラなどのインターベンブリング二次制御器を用いて,SACベースラインと比較して二次目標の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-06T22:20:07Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。