論文の概要: EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
- arxiv url: http://arxiv.org/abs/2505.23473v1
- Date: Thu, 29 May 2025 14:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.897193
- Title: EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
- Title(参考訳): EVOREFUSE: Pseudo-Malicious 命令に対する LLM 過剰拒絶の評価と緩和のための進化的プロンプト最適化
- Authors: Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xiaolu Zhang, Jun Zhou, Yuxiang Peng, Li Zheng, Chong Teng, Donghong Ji, Zhuang Li,
- Abstract要約: 大型言語モデル(LLM)は、しばしば擬似重複命令への応答を拒否する。
本稿では,多種多様な擬似重複命令を生成する迅速な最適化手法EVOREFUSEを紹介する。
我々は、582の擬似重複命令のベンチマークであるEVOREFUSE-TESTと3000の擬似重複命令を提供するEVOREFUSE-ALIGNという2つの新しいデータセットを作成している。
- 参考スコア(独自算出の注目度): 43.977812021838496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) frequently refuse to respond to pseudo-malicious instructions: semantically harmless input queries triggering unnecessary LLM refusals due to conservative safety alignment, significantly impairing user experience. Collecting such instructions is crucial for evaluating and mitigating over-refusals, but existing instruction curation methods, like manual creation or instruction rewriting, either lack scalability or fail to produce sufficiently diverse and effective refusal-inducing prompts. To address these limitations, we introduce EVOREFUSE, a prompt optimization approach that generates diverse pseudo-malicious instructions consistently eliciting confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm exploring the instruction space in more diverse directions than existing methods via mutation strategies and recombination, and iteratively evolves seed instructions to maximize evidence lower bound on LLM refusal probability. Using EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582 pseudo-malicious instructions that outperforms the next-best benchmark with 140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater lexical diversity, and 40.03% improved LLM response confidence scores; and EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with responses for supervised and preference-based alignment training. LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to 14.31% fewer over-refusals than models trained on the second-best alignment dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals models trigger over-refusals by overly focusing on sensitive keywords while ignoring broader context.
- Abstract(参考訳): 大言語モデル(LLM)は、意味的に有害な入力クエリが不必要なLCMの拒絶を引き起こし、ユーザエクスペリエンスを著しく損なうという、疑似悪質な命令への応答をしばしば拒否する。
このような命令の収集はオーバーリフレクションの評価と緩和に不可欠であるが、手動生成や命令書き換えのような既存の命令キュレーション手法ではスケーラビリティが欠如しているか、十分な多様性と効果的なリフレクションプロンプトの生成に失敗している。
これらの制約に対処するために,多種多様な擬似重複命令を生成する高速最適化手法EVOREFUSEを導入する。
EVOREFUSEは、突然変異戦略や組換えを通じて既存の方法よりも多様な方向の命令空間を探索する進化的アルゴリズムを用いており、反復的にシード命令を進化させ、LLM拒絶確率の低いエビデンスを証明している。
EVOREFUSEを使って2つの新しいデータセットを作成する。EVOREFUSE-TESTは、582の擬似悪用命令のベンチマークで、140.41%の高速な平均的拒絶反応率、34.86%の語彙的多様性、および40.03%の改善LPM応答の信頼性スコア、そしてEVOREFUSE-ALIGNは、教師付きおよび嗜好に基づくアライメントトレーニングのレスポンスで3000の擬似悪用命令を提供する。
LLAMA3.1-8B-INSTRUCTはEVOREFUSE-ALIGN上で監督的に微調整され、安全性を損なうことなく第2ベットアライメントデータセットでトレーニングされたモデルよりも最大14.31%のオーバーリフレクションが達成される。
EVOREFUSE-TESTを用いた分析では、より広い文脈を無視しながらセンシティブなキーワードに過度に注目することで、過剰な拒絶を引き起こすモデルを明らかにした。
関連論文リスト
- FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning [12.467239356591238]
FalseRejectは、44の安全関連カテゴリにまたがる構造化された応答を伴う16kの一見有毒なクエリを含む包括的なリソースである。
本稿では,多種多様な複雑なプロンプトを生成するグラフインフォームド・逆多エージェントインタラクション・フレームワークを提案する。
FalseRejectによる教師付き微調整は、全体的な安全性や汎用言語能力を損なうことなく、不要な拒絶を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-12T20:45:25Z) - Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability [5.393872292662451]
Meeseeksは,反復的なフィードバックフレームワークを通じて,現実的な人間-LLMインタラクションをシミュレートする。
MeeseeksはマルチターンシナリオにおけるLLMの命令フォロー機能に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs [30.333277284839053]
大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-09-03T02:42:39Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。