論文の概要: GUARD: Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics for LLMs
- arxiv url: http://arxiv.org/abs/2508.20325v1
- Date: Thu, 28 Aug 2025 00:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.867756
- Title: GUARD: Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics for LLMs
- Title(参考訳): GUARD:LLMの適応的ロールプレイとジェイルブレイク診断によるガイドライン維持テスト
- Authors: Haibo Jin, Ruoxi Chen, Peiyan Zhang, Andy Zhou, Yang Zhang, Haohan Wang,
- Abstract要約: GUARD(textbfGuideline textbfUpholding Test through textbfAdaptive textbfRole-play and Jailbreak textbfDiagnostics)は、ガイドラインを特定のガイドライン違反の質問に運用するために設計されたテスト手法である。
- 参考スコア(独自算出の注目度): 35.356192713919974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models become increasingly integral to various domains, their potential to generate harmful responses has prompted significant societal and regulatory concerns. In response, governments have issued ethics guidelines to promote the development of trustworthy AI. However, these guidelines are typically high-level demands for developers and testers, leaving a gap in translating them into actionable testing questions to verify LLM compliance. To address this challenge, we introduce GUARD (\textbf{G}uideline \textbf{U}pholding Test through \textbf{A}daptive \textbf{R}ole-play and Jailbreak \textbf{D}iagnostics), a testing method designed to operationalize guidelines into specific guideline-violating questions that assess LLM adherence. To implement this, GUARD uses automated generation of guideline-violating questions based on government-issued guidelines, thereby testing whether responses comply with these guidelines. When responses directly violate guidelines, GUARD reports inconsistencies. Furthermore, for responses that do not directly violate guidelines, GUARD integrates the concept of ``jailbreaks'' to diagnostics, named GUARD-JD, which creates scenarios that provoke unethical or guideline-violating responses, effectively identifying potential scenarios that could bypass built-in safety mechanisms. Our method finally culminates in a compliance report, delineating the extent of adherence and highlighting any violations. We have empirically validated the effectiveness of GUARD on seven LLMs, including Vicuna-13B, LongChat-7B, Llama2-7B, Llama-3-8B, GPT-3.5, GPT-4, GPT-4o, and Claude-3.7, by testing compliance under three government-issued guidelines and conducting jailbreak diagnostics. Additionally, GUARD-JD can transfer jailbreak diagnostics to vision-language models, demonstrating its usage in promoting reliable LLM-based applications.
- Abstract(参考訳): 大規模言語モデルが様々な領域にますます統合されるにつれて、有害な応答を生み出す可能性は、社会的・規制的な懸念を招いている。
これに対し、政府は信頼できるAIの開発を促進するための倫理ガイドラインを発行した。
しかしながら、これらのガイドラインは開発者とテスタにとって一般的に高いレベルの要求であり、LCM準拠を検証するために実行可能なテスト質問に翻訳する際のギャップを残している。
この課題に対処するために、GUARD(\textbf{G}uideline \textbf{U}pholding Test through \textbf{A}daptive \textbf{R}ole-play and Jailbreak \textbf{D}iagnostics)を導入する。
これを実現するために、GUARDは政府発行のガイドラインに基づくガイドライン違反質問の自動生成を使用して、これらのガイドラインに準拠しているかどうかをテストする。
回答がガイドラインに直接違反した場合、GUARDは矛盾を報告します。
さらに、ガイドラインに直接違反しない応答に対して、GUARDはGUARD-JDという名前の診断に‘jailbreaks’という概念を統合する。
本手法は, コンプライアンスレポートにおいて, 遵守の程度を明記し, 違反を強調し, 最終的に終了する。
Vicuna-13B, LongChat-7B, Llama2-7B, Llama-3-8B, GPT-3.5, GPT-4o, GPT-4o, Claude-3.7 を含む7つのLSMに対する GUARD の有効性を,政府のガイドラインに従って検証し, ジェイルブレイク診断を行った。
さらに、GUARD-JDはジェイルブレイク診断を視覚言語モデルに転送し、信頼性の高いLCMベースのアプリケーションの宣伝にその使用法を示す。
関連論文リスト
- The bitter lesson of misuse detection [0.0]
本稿では,LLMスーパービジョンシステム評価のためのベンチマークであるBELLSを紹介する。
ベルの枠組みは、重度(良性、境界線、有害)と敵対的洗練(直接対ジェイルブレイク)の2次元である。
本評価は, 専門監督システムの大幅な限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-07-08T15:21:17Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [14.29916331560052]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2024-02-05T18:54:43Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。