論文の概要: Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences
- arxiv url: http://arxiv.org/abs/2502.08142v1
- Date: Wed, 12 Feb 2025 05:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:31.766734
- Title: Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences
- Title(参考訳): 安全ギャップの橋渡し:信頼できるLLM推論のためのガードレールパイプライン
- Authors: Shanshan Han, Salman Avestimehr, Chaoyang He,
- Abstract要約: 本稿では,Large Language Model(LLM)推論の安全性と信頼性を高めるために設計されたガードレールパイプラインであるWildflare GuardRailを紹介する。
Wildflare GuardRailは、セーフティインプットを識別し、モデルアウトプットの幻覚を検出するSafety Detectorなど、いくつかのコア機能モジュールを統合している。
軽量なラッパーは、コストのかかるモデルコールなしで、クエリ毎に1.06sのモデル出力で悪意のあるURLに100%の精度で対処できる。
- 参考スコア(独自算出の注目度): 18.36319991890607
- License:
- Abstract: We present Wildflare GuardRail, a guardrail pipeline designed to enhance the safety and reliability of Large Language Model (LLM) inferences by systematically addressing risks across the entire processing workflow. Wildflare GuardRail integrates several core functional modules, including Safety Detector that identifies unsafe inputs and detects hallucinations in model outputs while generating root-cause explanations, Grounding that contextualizes user queries with information retrieved from vector databases, Customizer that adjusts outputs in real time using lightweight, rule-based wrappers, and Repairer that corrects erroneous LLM outputs using hallucination explanations provided by Safety Detector. Results show that our unsafe content detection model in Safety Detector achieves comparable performance with OpenAI API, though trained on a small dataset constructed with several public datasets. Meanwhile, the lightweight wrappers can address malicious URLs in model outputs in 1.06s per query with 100% accuracy without costly model calls. Moreover, the hallucination fixing model demonstrates effectiveness in reducing hallucinations with an accuracy of 80.7%.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)推論の安全性と信頼性を高めるために設計されたガードレールパイプラインであるWildflare GuardRailを紹介する。
Wildflare GuardRailは、安全性の低い入力を識別し、ルート原因の説明を生成しながらモデル出力の幻覚を検出するSafety Detector、ベクトルデータベースから取得した情報でユーザクエリをコンテキスト化する Grounding、軽量でルールベースのラッパーを使用して出力をリアルタイムで調整するCustomizer、Safety Detectorが提供する幻覚説明を使って誤LLM出力を補正するRemorerなど、いくつかのコア機能モジュールを統合している。
その結果、安全検出器の安全でないコンテンツ検出モデルは、いくつかの公開データセットで構築された小さなデータセットでトレーニングされているにもかかわらず、OpenAI APIで同等のパフォーマンスを達成することがわかった。
一方、軽量なラッパーは、コストのかかるモデルコールなしで、クエリ毎に1.06sのモデル出力の悪意のあるURLを100%精度で処理することができる。
さらに、幻覚固定モデルは、80.7%の精度で幻覚を減らす効果を示す。
関連論文リスト
- Detecting and Filtering Unsafe Training Data via Data Attribution [10.111622301509362]
大規模言語モデル(LLM)は、安全でないトレーニングデータに対して脆弱である。
安全でないトレーニングデータの検出とフィルタリングにデータ属性を活用するDABUFを提案する。
我々は、ジェイルブレイク訓練データのフィルタリングと、性別バイアスの識別と緩和の2つの異なるタスクのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2025-02-17T03:50:58Z) - TrustRAG: Enhancing Robustness and Trustworthiness in RAG [31.231916859341865]
TrustRAGは、世代ごとに取得される前に、妥協されたコンテンツと無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、既存のアプローチと比較して、検索精度、効率、攻撃抵抗を大幅に改善している。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。
タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。
また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文 参考訳(メタデータ) (2024-12-30T13:12:27Z) - Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models [30.93821289892195]
IRR (Identify, Remove, and Recalibrate for Safety Realignment) を提案する。
IRRの中核は、保持されたパラメータを再調整しながら、微調整されたモデルから安全でないデルタパラメータを特定し、除去することである。
この結果から,IRRは有害なクエリやジェイルブレイク攻撃などの安全性ベンチマークにおいて,微調整モデルの安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-15T03:58:38Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。
提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。
我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-25T07:12:51Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Uncertainty for Identifying Open-Set Errors in Visual Object Detection [31.533136658421892]
GMM-Detは、オブジェクト検出器から不確実性を抽出し、オープンセットエラーを識別および拒否するリアルタイムの方法である。
GMM-Detは、オープンセット検出を識別および拒否するための既存の不確実性技術に一貫して勝ることを示す。
論文 参考訳(メタデータ) (2021-04-03T07:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。