論文の概要: Prompt Injection Evaluations: Refusal Boundary Instability and Artifact-Dependent Compliance in GPT-4-Series Models
- arxiv url: http://arxiv.org/abs/2601.17911v1
- Date: Sun, 25 Jan 2026 17:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.530142
- Title: Prompt Injection Evaluations: Refusal Boundary Instability and Artifact-Dependent Compliance in GPT-4-Series Models
- Title(参考訳): プロンプトインジェクション評価:GPT-4系列モデルにおける境界不安定性とアーチファクト依存性の適合性
- Authors: Thomas Heverin,
- Abstract要約: GPT-4.1 と GPT-4o の2つのモデルを評価する。
アーティファクトタイプは摂動スタイルよりも断裂の予測が強いことが分かりました。
断熱挙動は安定な二元性というよりは確率的であり, 人工物に依存した境界現象である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection evaluations typically treat refusal as a stable, binary indicator of safety. This study challenges that paradigm by modeling refusal as a local decision boundary and examining its stability under structured perturbations. We evaluated two models, GPT-4.1 and GPT-4o, using 3,274 perturbation runs derived from refusal-inducing prompt injection attempts. Each base prompt was subjected to 25 perturbations across five structured families, with outcomes manually coded as Refusal, Partial Compliance, or Full Compliance. Using chi-square tests, logistic regression, mixed-effects modeling, and a novel Refusal Boundary Entropy (RBE) metric, we demonstrate that while both models refuse >94% of attempts, refusal instability is persistent and non-uniform. Approximately one-third of initial refusal-inducing prompts exhibited at least one "refusal escape," a transition to compliance under perturbation. We find that artifact type is a stronger predictor of refusal failure than perturbation style. Textual artifacts, such as ransomware notes, exhibited significantly higher instability, with flip rates exceeding 20%. Conversely, executable malware artifacts showed zero refusal escapes in both models. While GPT-4o demonstrated tighter refusal enforcement and lower RBE than GPT-4.1, it did not eliminate artifact-dependent risks. These findings suggest that single-prompt evaluations systematically overestimate safety robustness. We conclude that refusal behavior is a probabilistic, artifact-dependent boundary phenomenon rather than a stable binary property, requiring a shift in how LLM safety is measured and audited.
- Abstract(参考訳): プロンプト注入の評価は通常、拒絶を安全の安定二分指標として扱う。
本研究では, 局所的決定境界としての拒絶をモデル化し, 構造的摂動下での安定性を検証し, そのパラダイムに挑戦する。
GPT-4.1 と GPT-4o の2つのモデルについて,拒絶誘導型インジェクションによる3,274回摂動動作を用いて検討した。
各基地のプロンプトは5つの構造された家族の間で25の摂動を受けており、結果は手動で「拒絶」、「部分コンプライアンス」、「完全コンプライアンス」と符号化された。
二乗検定、ロジスティック回帰、混合効果モデリング、新しいリファウンダリーエントロピー(RBE)測定を用いて、両モデルが94%の試行を拒否する一方で、リファウンダリ不安定は持続的かつ一様でないことを示した。
最初の拒絶誘導プロンプトの約3分の1は、少なくとも1つの「拒絶脱出」を示し、これは摂動下でのコンプライアンスへの移行であった。
アーティファクトタイプは摂動スタイルよりも断裂の予測が強いことが分かりました。
ランサムウェアノートなどのテキストアーティファクトは、フリップレートが20%を超え、不安定性が著しく高かった。
逆に、実行可能マルウェアのアーティファクトは両方のモデルでゼロ拒否エスケープを示した。
GPT-4o は GPT-4.1 よりも厳格な拒絶と RBE の低下を示したが、人工物に依存したリスクは排除されなかった。
これらの結果から,単発評価は安全性の安定性を体系的に過大評価する可能性が示唆された。
断熱挙動は安定な二元性ではなく確率的, 人工物に依存した境界現象であり, LLMの安全性の測定と監査の仕方を変える必要があると結論付けている。
関連論文リスト
- Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure [2.0017902634527194]
本稿では,真の消去と難読化を区別する表現対応アーキテクチャであるKnowledge Immunization Framework(KIF)を紹介する。
提案手法は,主観的表現の動的抑制とパラメータ効率の適応を組み合わせ,完全モデル再学習を伴わない耐久性のある未学習を実現する。
論文 参考訳(メタデータ) (2026-01-15T16:28:14Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - NegBLEURT Forest: Leveraging Inconsistencies for Detecting Jailbreak Attacks [8.416892421891761]
安全メカニズムをバイパスするために設計された脱獄攻撃は、倫理的ガイドラインに従っているにもかかわらず、LLMに有害または不適切なコンテンツを生成するよう促すことで深刻な脅威となる。
この研究は、成功と失敗の間のセマンティックな一貫性分析を導入し、否定を意識したスコアリングアプローチが意味のあるパターンをキャプチャすることを示した。
NegBLEURT Forestと呼ばれる新しい検出フレームワークが提案され、敵のプロンプトによって引き起こされる出力と期待される安全行動の間のアライメントの程度を評価する。
アイソレーションフォレストアルゴリズムを用いて異常応答を特定し、信頼性の高いジェイルブレイク検出を可能にする。
論文 参考訳(メタデータ) (2025-11-14T14:43:54Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。