論文の概要: Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4
- arxiv url: http://arxiv.org/abs/2604.19461v1
- Date: Tue, 21 Apr 2026 13:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.789762
- Title: Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4
- Title(参考訳): 不随意インコンテキストラーニング: GPT-5.4における安全アライメント回避のためのFew-Shotパターン補完の爆発
- Authors: Alex Polyakov, Daniel Kuznetsov,
- Abstract要約: Involuntary In-Context Learning (IICL)を導入し、安全トレーニングをオーバーライドするパターン補完を強制する。
7回のアブレーション実験により,攻撃の有効成分を同定した。
IICL は GPT-5.4 に対して 24.0,% bypass $[18.6%, 30.4%] を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment in large language models relies on behavioral training that can be overridden when sufficiently strong in-context patterns compete with learned refusal behaviors. We introduce Involuntary In-Context Learning (IICL), an attack class that uses abstract operator framing with few-shot examples to force pattern completion that overrides safety training. Through 3479 probes across 10 OpenAI models, we identify the attack's effective components through a seven-experiment ablation study. Key findings: (1)~semantic operator naming achieves 100\,\% bypass rate (50/50, $p < 0.001$); (2)~the attack requires abstract framing, since identical examples in direct question-and-answer format yield 0\,\%; (3)~example ordering matters strongly (interleaved: 76\,\%, harmful-first: 6\,\%); (4)~temperature has no meaningful effect (46--56\,\% across 0.0--1.0). On the HarmBench benchmark, IICL achieves 24.0\,\% bypass $[18.6\%, 30.4\%]$ against GPT-5.4 with detailed 619-word responses, compared to 0.0\,\% for direct queries.
- Abstract(参考訳): 大規模言語モデルの安全性の整合性は、学習された拒絶行動と十分に強いコンテキスト内パターンが競合する場合に、過度に拘束される行動訓練に依存する。
Involuntary In-Context Learning (IICL, Involuntary In-Context Learning) は、抽象演算子フレーミングと数ショットの例を用いて、安全トレーニングをオーバーライドするパターン補完を強制する攻撃クラスである。
10のOpenAIモデルにわたる3479のプローブを通して、攻撃の有効成分を7つの実験アブレーション研究によって同定する。
1) -semantic operator Names achieves 100\,\% bypass rate (50/50, $p < 0.001$); (2) - この攻撃は抽象的なフレーミングを必要とする。なぜなら、直接質問・回答形式における同じ例は、0\,\%; (3) -example ordering matters strongly (Interleaved: 76\,\%, hazard-first: 6\,\%); (4) -temperatureは、0.0-1.0で46-56\,\%)。
HarmBench ベンチマークでは、IICL は、直接クエリの 0.0\,\% に対して、詳細な 619 ワード応答を持つ GPT-5.4 に対して 24.0\,\% バイパス$[18.6\%, 30.4\%] を達成する。
関連論文リスト
- Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis [14.657771106188115]
脆弱性検出のためのトレーニング不要なマルチエージェントフレームワークであるPhoenixを提案する。
Phoenixは、検出をセマンティックスライダ、要求リバースエンジニア、契約審査員の3つのステージに分解する。
PrimeVul Pairedでは、Phoenix は F1 = 0.825 と Pair-Correct = 64.4% を獲得し、RASM-Vul (F1 = 0.668) と VulTrial (F1 = 0.563) を上回る。
論文 参考訳(メタデータ) (2026-04-21T03:02:34Z) - Beyond Pattern Matching: Seven Cross-Domain Techniques for Prompt Injection Detection [0.0]
本研究は,大言語以外の分野から特定のメカニズムを移植する7つの検出手法を提案する。
7つのテクニックのうち3つは、プロンプトシールドv0.4.1リリース(Apache 2.0)で実装され、6つのデータセットにわたる4つの設定アブレーションで評価されている。
論文 参考訳(メタデータ) (2026-04-20T13:27:05Z) - In-Context Environments Induce Evaluation-Awareness in Language Models [0.12691047660244334]
人間は脅威の下でより自覚的になるが、タスクに吸収されると自意識を失うことがある。
我々は,テキスト内プロンプトを最適化可能な環境として扱うブラックボックス逆最適化フレームワークを提案する。
我々は、逆最適化されたプロンプトが、これまで理解されていたよりもはるかに高い信頼性の脅威をもたらすことを示した。
論文 参考訳(メタデータ) (2026-03-04T08:22:02Z) - Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem [0.0]
本研究では,生産システムのアーキテクチャ層が正しい推論を可能にする方法を検討する。
STAR(Situation-Task-Action-Result)推論フレームワークだけでは精度が0%から85%に向上することがわかった。
論文 参考訳(メタデータ) (2026-02-25T11:40:15Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Retrieval-Augmented Few-Shot Prompting Versus Fine-Tuning for Code Vulnerability Detection [0.8737375836744933]
大規模な言語モデルの能力を活用するための微調整の実用的な代替手段として、ほとんどショットプロンプトが登場していない。
コード脆弱性検出における少数ショット性能向上戦略として,検索強化プロンプトについて検討する。
論文 参考訳(メタデータ) (2025-11-28T12:19:31Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。
LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。
我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。