論文の概要: Auto-Tuning Safety Guardrails for Black-Box Large Language Models
- arxiv url: http://arxiv.org/abs/2512.15782v1
- Date: Sun, 14 Dec 2025 23:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.70306
- Title: Auto-Tuning Safety Guardrails for Black-Box Large Language Models
- Title(参考訳): ブラックボックス大言語モデルのための自動チューニング安全ガードレール
- Authors: Perry Abdulkadir,
- Abstract要約: 大規模言語モデル(LLM)は、システムプロンプトやコンテントフィルタなどの安全ガードレールの後方にますます展開されている。
実際には、これらのガードレールは手動で調整され、脆く、再現が困難である。
本稿では,安全ガードレール設計自体をハイパーパラメータ最適化問題として扱う,シンプルだが実用的な方法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed behind safety guardrails such as system prompts and content filters, especially in settings where product teams cannot modify model weights. In practice these guardrails are typically hand-tuned, brittle, and difficult to reproduce. This paper studies a simple but practical alternative: treat safety guardrail design itself as a hyperparameter optimization problem over a frozen base model. Concretely, I wrap Mistral-7B-Instruct with modular jailbreak and malware system prompts plus a ModernBERT-based harmfulness classifier, then evaluate candidate configurations on three public benchmarks covering malware generation, classic jailbreak prompts, and benign user queries. Each configuration is scored using malware and jailbreak attack success rate, benign harmful-response rate, and end-to-end latency. A 48-point grid search over prompt combinations and filter modes establishes a baseline. I then run a black-box Optuna study over the same space and show that it reliably rediscovers the best grid configurations while requiring an order of magnitude fewer evaluations and roughly 8x less wall-clock time. The results suggest that viewing safety guardrails as tunable hyperparameters is a feasible way to harden black-box LLM deployments under compute and time constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に製品チームがモデルの重みを変更できないような環境で、システムプロンプトやコンテントフィルタのような安全ガードレールの後方に展開されることが増えている。
実際には、これらのガードレールは手動で調整され、脆く、再現が困難である。
本稿では, 安全ガードレール設計自体を凍結ベースモデル上でのハイパーパラメータ最適化問題として扱う, 単純だが実用的な方法について検討する。
具体的には、モジュール型のjailbreakとマルウェアシステムプロンプトとModernBERTベースの有害度分類器でMistral-7B-Instructをラップし、マルウェア生成、古典的なjailbreakプロンプト、良質なユーザクエリを含む3つの公開ベンチマークで候補設定を評価する。
各構成は、マルウェアとジェイルブレイク攻撃の成功率、有害応答率、エンドツーエンドのレイテンシを使用してスコアされる。
48ポイントのグリッドがプロンプトの組み合わせとフィルタモードを探索し、ベースラインを確立する。
次に、同じ空間上でブラックボックスのOptunaの研究を行い、最高のグリッド構成を確実に再検討し、桁違いに少ない評価と約8倍のウォールクロック時間を必要とすることを示した。
その結果、安全ガードレールを調整可能なハイパーパラメータとして見ることは、計算および時間制約下でのブラックボックスLSM配置を硬化させるための実現可能な方法であることが示唆された。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach [7.605338172738699]
我々は,データセットのみのブラックボックスファインチューニングインタフェースの下で,プロバイダの防御に対する3段階のジェイルブレイク攻撃を示す。
我々の攻撃には、安全スタイルの接頭辞/接尾辞ラッパー、敏感なトークンの良質な語彙エンコーディング(アンダースコーディング)、バックドア機構が組み合わされている。
実世界の展開において,本手法はOpenAIプラットフォーム上でGPT-4.1とGPT-4oをジェイルブレークし,攻撃成功率は両モデルともに97%以上である。
論文 参考訳(メタデータ) (2025-10-01T18:14:13Z) - JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Jailbreaking Large Language Models Against Moderation Guardrails via Cipher Characters [12.645216248487051]
JAMBenchは、モデレーションガードレールをトリガーし、評価するために設計された有害な行動ベンチマークである。
JAMは、ジェイルブレイクの成功率(sim$$times$19.88)とフィルターアウト率(sim$$times$1/6)を、ベースラインよりも高く達成している。
論文 参考訳(メタデータ) (2024-05-30T18:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。