Fugu-MT 論文翻訳(概要): No Free Lunch with Guardrails

論文の概要: No Free Lunch with Guardrails

arxiv url: http://arxiv.org/abs/2504.00441v1
Date: Tue, 01 Apr 2025 05:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:08.952142
Title: No Free Lunch with Guardrails
Title（参考訳）: ガードレール付きフリーランチ
Authors: Divyanshu Kumar, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi,
Abstract要約: 我々は,現行のガードレールが実用性を維持しつつ誤用を効果的に防ぐかどうかを評価する。調査の結果,ガードレール付き無料ランチは存在せず,セキュリティ強化がしばしばユーザビリティの犠牲となることが確認された。ユーザビリティを維持しつつリスクを最小限に抑える優れたガードレールを設計するための青写真を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: As large language models (LLMs) and generative AI become widely adopted, guardrails have emerged as a key tool to ensure their safe use. However, adding guardrails isn't without tradeoffs; stronger security measures can reduce usability, while more flexible systems may leave gaps for adversarial attacks. In this work, we explore whether current guardrails effectively prevent misuse while maintaining practical utility. We introduce a framework to evaluate these tradeoffs, measuring how different guardrails balance risk, security, and usability, and build an efficient guardrail. Our findings confirm that there is no free lunch with guardrails; strengthening security often comes at the cost of usability. To address this, we propose a blueprint for designing better guardrails that minimize risk while maintaining usability. We evaluate various industry guardrails, including Azure Content Safety, Bedrock Guardrails, OpenAI's Moderation API, Guardrails AI, Nemo Guardrails, and our own custom-built guardrails. Additionally, we assess how LLMs like GPT-4o, Gemini 2.0-Flash, Claude 3.5-Sonnet, and Mistral Large-Latest respond under different system prompts, including simple prompts, detailed prompts, and detailed prompts with chain-of-thought (CoT) reasoning. Our study provides a clear comparison of how different guardrails perform, highlighting the challenges in balancing security and usability.
Abstract（参考訳）: 大規模言語モデル(LLM)と生成AIが広く採用されるにつれて、ガードレールは、彼らの安全な使用を保証する重要なツールとして登場した。しかし、ガードレールの追加にはトレードオフがないわけではなく、より強力なセキュリティ対策はユーザビリティを低下させ、より柔軟なシステムは敵の攻撃のギャップを埋める可能性がある。本研究では,現行のガードレールが実用性を維持しつつ誤用を効果的に防止できるかどうかを考察する。これらのトレードオフを評価するためのフレームワークを導入し、異なるガードレールがリスク、セキュリティ、ユーザビリティのバランスをどのように評価し、効率的なガードレールを構築するかを測定します。この結果から,ガードレール付き無料ランチは存在せず,セキュリティの強化がしばしばユーザビリティの犠牲となることが確認された。そこで本研究では,ユーザビリティを維持しつつ,リスクを最小限に抑える優れたガードレールを設計するための青写真を提案する。 Azure Content Safety, Bedrock Guardrails, OpenAIのModerration API, Guardrails AI, Nemo Guardrailsなど,さまざまな業界ガードレールを評価します。さらに,GPT-4o,Gemini 2.0-Flash,Claude 3.5-Sonnet,Mistral Large-UpdateといったLCMが,単純なプロンプト,詳細なプロンプト,チェーン・オブ・シント(CoT)推論による詳細なプロンプトなど,異なるシステムプロンプトの下でどのように応答するかを評価する。我々の研究は、異なるガードレールがどのように機能するかを明確に比較し、セキュリティとユーザビリティのバランスをとる上での課題を強調します。

関連論文リスト

Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
Defending Against Prompt Injection With a Few DefensiveTokens [53.7493897456957]
大規模言語モデル(LLM)システムは複雑なタスクを実行するために外部データと相互作用する。システムによってアクセスされたデータに命令を注入することにより、攻撃者は攻撃者が指示する任意のタスクで初期ユーザタスクをオーバーライドすることができる。システム開発者がフレキシブルな方法で必要な場合にのみセキュリティを確保するためには、例えば防御プロンプトのようなテストタイムディフェンスが提案されている。トレーニング時の代替に匹敵するプロンプトインジェクションを備えたテストタイムディフェンスであるDefensiveTokenを提案する。
論文参考訳（メタデータ） (2025-07-10T17:51:05Z)
Reasoning as an Adaptive Defense for Safety [31.00328416755368]
私たちは、$textitTARS$(安全のための適応推論器の訓練)というレシピを構築します。我々は、チェーンオブソートトレースと、タスク完了と安全のバランスをとる報奨信号を用いて、安全性について推論するモデルを訓練する。我々の研究は,lLMをジェイルブレイクや有害な要求に対して,プロンプトごとに推論することで,効果的かつオープンなレシピを提供する。
論文参考訳（メタデータ） (2025-07-01T17:20:04Z)
SoK: Evaluating Jailbreak Guardrails for Large Language Models [29.82176024701988]
大きな言語モデル(LLM)は目覚ましい進歩を遂げているが、そのデプロイメントは重大な脆弱性を露呈している。 LLMのインタラクションを監視し、制御する外部防衛機構であるガードレールが、将来性のあるソリューションとして登場した。 LLM用脱線ガードレールの総括解析を行った。
論文参考訳（メタデータ） (2025-06-12T11:42:40Z)
Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。 SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文参考訳（メタデータ） (2025-05-17T15:54:52Z)
Safety Guardrails for LLM-Enabled Robots [82.0459036717193]
従来のロボット安全アプローチは、大規模言語モデル(LLM)の新たな脆弱性に対処しない LLM対応ロボットの安全性を確保するための2段ガードレールアーキテクチャであるRoboGuardを提案する。 RoboGuardは、安全プランのパフォーマンスを損なうことなく、安全でないプランの実行を92%から2.5%以下に削減することを示す。
論文参考訳（メタデータ） (2025-03-10T22:01:56Z)
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。安全制御理論に基づく安全ステアリングフレームワークを提案する。本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文参考訳（メタデータ） (2025-02-28T21:10:03Z)
Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs [44.023741610675266]
大規模言語モデル(LLM)は、ジェイルブレイクと呼ばれるプロンプトによって、安全でない振る舞いに操作できる。すべての守備隊が、それらを整列するために使われる小さなジェイルブレイクのために、新たなアウト・オブ・ディストリビューション攻撃を処理できるわけではない。評価のために利用可能な現在のデータセットに基づいて、単純なベースラインは、競争力のあるアウト・オブ・ディストリビューション性能を示すことができることを示す。
論文参考訳（メタデータ） (2025-02-21T12:54:25Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-10-29T15:51:24Z)
Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文参考訳（メタデータ） (2024-09-19T17:10:34Z)
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。現在の手法は安全性と利便性のバランスをとるのに苦労している。構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文参考訳（メタデータ） (2024-07-23T09:14:27Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
$R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。 R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。 R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文参考訳（メタデータ） (2024-07-08T02:15:29Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。 GuardAgentは,98%,83%以上のガードレールアキュラシーを有する2つのベンチマークにおいて,異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文参考訳（メタデータ） (2024-02-09T09:09:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。