論文の概要: A Lightweight Explainable Guardrail for Prompt Safety
- arxiv url: http://arxiv.org/abs/2602.15853v1
- Date: Sat, 24 Jan 2026 03:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.652143
- Title: A Lightweight Explainable Guardrail for Prompt Safety
- Title(参考訳): プロンプト安全のための軽量説明可能なガードレール
- Authors: Md Asiful Islam, Mihai Surdeanu,
- Abstract要約: 安全でないプロンプトの分類のための軽量な説明可能なガードレール(LEG)法を提案する。
LEGは、LCMの確認バイアスに対処する新しい戦略を用いて、説明可能性のための合成データを用いて訓練される。
もし受け入れられたら、すべてのモデルと注釈付きデータセットを公開します。
- 参考スコア(独自算出の注目度): 20.383868120117565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a lightweight explainable guardrail (LEG) method for the classification of unsafe prompts. LEG uses a multi-task learning architecture to jointly learn a prompt classifier and an explanation classifier, where the latter labels prompt words that explain the safe/unsafe overall decision. LEG is trained using synthetic data for explainability, which is generated using a novel strategy that counteracts the confirmation biases of LLMs. Lastly, LEG's training process uses a novel loss that captures global explanation signals and combines cross-entropy and focal losses with uncertainty-based weighting. LEG obtains equivalent or better performance than the state-of-the-art for both prompt classification and explainability, both in-domain and out-of-domain on three datasets, despite the fact that its model size is considerably smaller than current approaches. If accepted, we will release all models and the annotated dataset publicly.
- Abstract(参考訳): 安全でないプロンプトの分類のための軽量な説明可能なガードレール(LEG)法を提案する。
LEGはマルチタスク学習アーキテクチャを用いてプロンプト分類器と説明分類器を共同で学習する。
LEGは、LCMの確認バイアスに対処する新しい戦略を用いて、説明可能性のための合成データを用いて訓練される。
最後に、LEGのトレーニングプロセスでは、グローバルな説明シグナルをキャプチャし、クロスエントロピーと焦点損失と不確実性に基づく重み付けを組み合わせた、新たな損失を使用する。
LEGは、現在のアプローチよりもモデルサイズがかなり小さいにもかかわらず、3つのデータセットのドメイン内およびドメイン外の両方において、迅速な分類と説明可能性の両方において、最先端よりも同等または優れたパフォーマンスを得る。
もし受け入れられたら、すべてのモデルと注釈付きデータセットを公開します。
関連論文リスト
- Misinformation Detection using Large Language Models with Explainability [3.3206346066275363]
本稿では、トランスフォーマーベース事前学習言語モデル(PLM)を用いて誤情報を検出するための説明可能かつ計算効率の良いパイプラインを示す。
まず、バックボーンを凍結し、分類ヘッドのみを訓練し、次に、レイヤワイズ学習率の減衰を適用しながら、バックボーン層を徐々に凍結させます。
その結果, PLMと原理的微調整と解釈可能性の組み合わせは, スケーラブルで信頼性の高い誤情報検出に有効な枠組みであることが示唆された。
論文 参考訳(メタデータ) (2025-10-21T06:56:45Z) - RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts [39.58550043591753]
外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。
LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
論文 参考訳(メタデータ) (2025-10-06T19:20:43Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Concept-Level Explainability for Auditing & Steering LLM Responses [12.089513278445704]
ConceptX はモデルに依存しない、概念レベルの説明可能性の方法である。
プロンプト内で意味的にリッチなトークンを識別し、出力のセマンティックな類似性に基づいてそれらの重要性を割り当てる。
偏見の源を明らかにすることによって監査と、LPM応答の有害性を低下させるプロンプトを変更することによって、ステアリングの両方を可能にする。
論文 参考訳(メタデータ) (2025-05-12T14:31:51Z) - Do LLMs Understand the Safety of Their Inputs? Training-Free Moderation via Latent Prototypes [1.0779346838250028]
ラテントプロトタイプモデレータ (LPM) は、ラテント空間におけるマハラノビス距離を用いて入力安全性を評価する訓練のないモデレーション手法である。
LPMは、複数の安全ベンチマークで最先端のガードモデルと一致または超えている。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Transductive CLIP with Class-Conditional Contrastive Learning [68.51078382124331]
雑音ラベル付き分類ネットワークをスクラッチから学習するための新しいフレームワークであるTransductive CLIPを提案する。
擬似ラベルへの依存を軽減するために,クラス条件のコントラスト学習機構を提案する。
アンサンブルラベルは、ノイズラベル付きディープニューラルネットワークのトレーニングを安定化するための擬似ラベル更新戦略として採用されている。
論文 参考訳(メタデータ) (2022-06-13T14:04:57Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。