Fugu-MT 論文翻訳(概要): $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

論文の概要: $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

arxiv url: http://arxiv.org/abs/2407.05557v1
Date: Mon, 8 Jul 2024 02:15:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 17:19:52.466014
Title: $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning
Title（参考訳）: R^2$-Guard: 知識強化論理推論によるLLMガードレールのロバスト推論
Authors: Mintong Kang, Bo Li,
Abstract要約: 既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。 R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。 R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
参考スコア（独自算出の注目度）: 8.408258504178718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As LLMs become increasingly prevalent across various applications, it is critical to establish safety guardrails to moderate input/output content of LLMs. Existing guardrail models treat various safety categories independently and fail to explicitly capture the intercorrelations among them. This has led to limitations such as ineffectiveness due to inadequate training on long-tail data from correlated safety categories, susceptibility to jailbreaking attacks, and inflexibility regarding new safety categories. To address these limitations, we propose $R^2$-Guard, a robust reasoning enabled LLM guardrail via knowledge-enhanced logical reasoning. Specifically, $R^2$-Guard comprises two parts: data-driven category-specific learning and reasoning components. The data-driven guardrail models provide unsafety probabilities of moderated content on different safety categories. We then encode safety knowledge among different categories as first-order logical rules and embed them into a probabilistic graphic model (PGM) based reasoning component. The unsafety probabilities of different categories from data-driven guardrail models are sent to the reasoning component for final inference. We employ two types of PGMs: Markov logic networks (MLNs) and probabilistic circuits (PCs), and optimize PCs to achieve precision-efficiency balance via improved graph structure. To further perform stress tests for guardrail models, we employ a pairwise construction method to construct a new safety benchmark TwinSafety, which features principled categories. We demonstrate the effectiveness of $R^2$-Guard by comparisons with eight strong guardrail models on six safety benchmarks, and demonstrate the robustness of $R^2$-Guard against four SOTA jailbreaking attacks. $R^2$-Guard significantly surpasses SOTA method LlamaGuard by 30.2% on ToxicChat and by 59.5% against jailbreaking attacks.
Abstract（参考訳）: LLMは様々な用途で普及しつつあるため、LLMの入力・出力内容を適度にするための安全ガードレールを確立することが重要である。既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。これは、相関した安全カテゴリからの長期データに対する訓練不足、脱獄攻撃への感受性、新しい安全カテゴリに関する柔軟性の低下による非効率性などの制限につながっている。これらの制約に対処するため,我々は,知識に富んだ論理的推論を通した堅牢なLLMガードレールである$R^2$-Guardを提案する。具体的には、$R^2$-Guardは、データ駆動のカテゴリ固有の学習と推論コンポーネントの2つの部分から構成される。データ駆動型ガードレールモデルは、さまざまな安全カテゴリにおいて、適度なコンテンツの安全性の低い確率を提供する。次に、各カテゴリの安全性知識を一階論理規則としてエンコードし、確率的図形モデル(PGM)に基づく推論コンポーネントに組み込む。データ駆動ガードレールモデルとは異なるカテゴリの安全性の低い確率は、最終的な推論のために推論コンポーネントに送られる。我々はマルコフ論理ネットワーク (MLN) と確率回路 (PC) の2種類のPGMを採用し、PCを最適化してグラフ構造の改善による精度・効率バランスを実現する。ガードレールモデルに対するストレステストをさらに進めるため,安全ベンチマークであるツインセーフティ(TwinSafety)を構築した。 6つの安全ベンチマークにおいて、8つの強力なガードレールモデルとの比較により、$R^2$-Guardの有効性を実証し、4つのSOTA脱獄攻撃に対する$R^2$-Guardの堅牢性を示す。 R^2$-GuardはSOTAメソッドのLlamaGuardをToxicChatで30.2%、ジェイルブレイク攻撃で59.5%を大きく上回っている。

関連論文リスト

No Free Lunch with Guardrails [0.0]
我々は,現行のガードレールが実用性を維持しつつ誤用を効果的に防ぐかどうかを評価する。調査の結果,ガードレール付き無料ランチは存在せず,セキュリティ強化がしばしばユーザビリティの犠牲となることが確認された。ユーザビリティを維持しつつリスクを最小限に抑える優れたガードレールを設計するための青写真を提案する。
論文参考訳（メタデータ） (2025-04-01T05:46:54Z)
How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。 DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文参考訳（メタデータ） (2025-03-20T19:52:30Z)
BingoGuard: LLM Content Moderation Tools with Risk Levels [67.53167973090356]
大きな言語モデル(LLM)によって生成された悪意のあるコンテンツは、様々な程度に害を与える可能性がある。本稿では,11の有害トピックに対するトピックごとの重度ルーブリックを導入し,LLMに基づくモデレーションシステムであるBingoGuardを構築する。
論文参考訳（メタデータ） (2025-03-09T10:43:09Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails [33.96886111900147]
ThinkGuardは、高容量言語モデルから知識を抽出する、批判的な拡張されたガードレールモデルである。平均的なF1とAUPRCを達成し、全てのベースラインを上回ります。ラベルのみの微調整モデルを超え、構造化された批評によって分類精度とニュアンス付き安全推論の両方が向上することを確認した。
論文参考訳（メタデータ） (2025-02-19T06:09:58Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T13:12:13Z)
Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-09-18T08:04:24Z)
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。現在の手法は安全性と利便性のバランスをとるのに苦労している。構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文参考訳（メタデータ） (2024-07-23T09:14:27Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。 WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文参考訳（メタデータ） (2024-06-26T16:58:20Z)
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。 SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文参考訳（メタデータ） (2024-06-26T07:15:44Z)
Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。 C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文参考訳（メタデータ） (2024-05-24T14:20:09Z)
Safe Linear Bandits over Unknown Polytopes [39.177982674455784]
安全線形バンディット問題(英: safe linear bandit problem、SLB)は、線形プログラミングのオンライン手法である。ポリトープ上でのSLBの有効性とスムーズな安全性のトレードオフについて検討した。
論文参考訳（メタデータ） (2022-09-27T21:13:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。