Fugu-MT 論文翻訳(概要): Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models

論文の概要: Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models

arxiv url: http://arxiv.org/abs/2409.00598v1
Date: Sun, 1 Sep 2024 03:25:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 13:43:27.553867
Title: Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models
Title（参考訳）: 大規模言語モデルにおける偽拒絶評価のための擬似調和プロンプトの自動生成
Authors: Bang An, Sicheng Zhu, Ruiyi Zhang, Michael-Andrei Panaitescu-Liess, Yuancheng Xu, Furong Huang,
Abstract要約: 安全性に配慮した大型言語モデル(LLM)は、時に「蚊を殺す方法」のような偽の有害なプロンプトを誤って拒否することがある。ユーザーをイライラさせるだけでなく、アライメントが保護しようとする価値に対する大衆の反発を引き起こしている。本稿では,多種多様・コンテンツ制御・モデル依存型擬似有害プロンプトの自動生成手法を提案する。
参考スコア（独自算出の注目度）: 41.00711032805581
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Safety-aligned large language models (LLMs) sometimes falsely refuse pseudo-harmful prompts, like "how to kill a mosquito," which are actually harmless. Frequent false refusals not only frustrate users but also provoke a public backlash against the very values alignment seeks to protect. In this paper, we propose the first method to auto-generate diverse, content-controlled, and model-dependent pseudo-harmful prompts. Using this method, we construct an evaluation dataset called PHTest, which is ten times larger than existing datasets, covers more false refusal patterns, and separately labels controversial prompts. We evaluate 20 LLMs on PHTest, uncovering new insights due to its scale and labeling. Our findings reveal a trade-off between minimizing false refusals and improving safety against jailbreak attacks. Moreover, we show that many jailbreak defenses significantly increase the false refusal rates, thereby undermining usability. Our method and dataset can help developers evaluate and fine-tune safer and more usable LLMs. Our code and dataset are available at https://github.com/umd-huang-lab/FalseRefusal
Abstract（参考訳）: 安全性に配慮した大型言語モデル(LLM)は、実際には無害な「蚊を殺す方法」のような偽の有害なプロンプトを誤って拒否することがある。ユーザーをイライラさせるだけでなく、アライメントが守ろうとしている価値に対する大衆の反発を引き起こしている。本稿では,多種多様なコンテンツ制御,モデル依存型擬似調和プロンプトを自動生成する手法を提案する。提案手法を用いて,既存のデータセットの10倍の大きさのPHTestと呼ばれる評価データセットを構築し,より偽の拒絶パターンをカバーし,議論の的となっているプロンプトを別々にラベル付けする。 PHTest 上で 20 LLM の評価を行い,そのスケールとラベリングによる新たな知見を明らかにした。以上の結果から,誤認の最小化と脱獄攻撃に対する安全性向上のトレードオフが明らかとなった。さらに,多くのジェイルブレイク防御が偽の拒絶率を大幅に増加させ,ユーザビリティを損なうことを示した。我々の手法とデータセットは、開発者がより安全で使いやすいLLMを評価し、微調整するのに役立つ。私たちのコードとデータセットはhttps://github.com/umd-huang-lab/FalseRefusalで公開されています。

関連論文リスト

An Embarrassingly Simple Defense Against LLM Abliteration Attacks [46.74826882670651]
大型言語モデル(LLM)は通常、有害な指示を拒絶することで安全ガイドラインに従うように整列されている。失語症と呼ばれる最近の攻撃は、拒絶行動に最も責任がある唯一の潜伏方向を隔離し、抑制する。本稿では,モデルがリフレクションを生成する方法を変更するディフェンスを提案する。
論文参考訳（メタデータ） (2025-05-25T09:18:24Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文参考訳（メタデータ） (2024-11-14T01:48:08Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Don't Say No: Jailbreaking LLM by Suppressing Refusal [13.666830169722576]
本研究では,バニラ目標損失が最適でない理由を最初に明らかにし,損失目標を探索・拡張し,DSN(Don't Say No)攻撃を導入する。 Refusalキーワードマッチングのような既存の評価では、多くの偽陽性および偽陰性インスタンスが明らかである。この課題を克服するために,自然言語推論(NLI)の矛盾評価と2つの外部LCM評価器を新たに組み込んだアンサンブル評価パイプラインを提案する。
論文参考訳（メタデータ） (2024-04-25T07:15:23Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Detecting Language Model Attacks with Perplexity [0.0]
LLM(Large Language Models)を含む新たなハックが出現し、敵の接尾辞を利用してモデルを騙し、危険な応答を発生させた。難易度とトークン長を訓練したLight-GBMは偽陽性を解消し、テストセットのほとんどの敵攻撃を正しく検出した。
論文参考訳（メタデータ） (2023-08-27T15:20:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。