論文の概要: LocalAlign: Enabling Generalizable Prompt Injection Defense via Generation of Near-Target Adversarial Examples for Alignment Training
- arxiv url: http://arxiv.org/abs/2605.01462v1
- Date: Sat, 02 May 2026 14:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.78678
- Title: LocalAlign: Enabling Generalizable Prompt Injection Defense via Generation of Near-Target Adversarial Examples for Alignment Training
- Title(参考訳): LocalAlign: アライメントトレーニングのためのニアターゲット逆転例の生成による汎用型プロンプトインジェクションディフェンスの実現
- Authors: Yuyang Gong, Zihao Wang, Jiawei Liu, XiaoFeng Wang,
- Abstract要約: 大規模な言語モデルは、ユーザデータ、検索されたWebコンテンツ、および外部ツールと相互作用するシステムにますます組み込まれています。
プロンプトインジェクションでは、信頼できないデータに埋め込まれた悪意のあるコマンドが信頼できないコマンドをオーバーライドする。
既存の防御は、信頼できないコマンドと信頼できないデータ部分との明確な境界を維持するためにモデルを微調整することに主に依存している。
敵の訓練に触発されたより一般化可能なプロンプトインジェクション・ディフェンスであるLocalAlignを提案する。
- 参考スコア(独自算出の注目度): 26.714202418939518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly embedded into systems that interact with user data, retrieved web content, and external tools, creating a new attack surface: prompt injection, where malicious commands embedded in untrusted data override the trusted command and induce unintended behavior. Existing defenses mainly rely on fine-tuning the model to preserve an explicit boundary between trusted commands and the untrusted data portion, so that the model learns to prioritize the trusted field and ignore malicious commands in data. However, we observe that while these defenses can block obviously malicious responses caused by injected commands, they generalize poorly to real-world scenarios where the model's response to the injected command is much nearer to the correct response. This is because existing methods typically train against only a fixed set of hand-crafted attack targets, which yields a loose boundary around the correct response and leaves it easier to bypass. To address this challenge, we propose LocalAlign, a more generalizable prompt injection defense inspired by adversarial training. LocalAlign automatically and efficiently generates adversarial examples in which the command embedded in the data portion induces a response that stays near to the correct response while still being wrong. We generate such near-but-wrong adversarial examples using prompting and a single inference step. This design enforces a tighter robustness boundary around the correct response: even small response shifts induced by commands in untrusted data are explicitly penalized. Moreover, the resulting adversarial examples can vary substantially in quality across samples. To address this issue, we further introduce a margin-aware alignment algorithm that quantifies each sample's distance to the correct response and assigns larger training weight to nearer ones.
- Abstract(参考訳): 大規模な言語モデルは、ユーザデータ、検索されたWebコンテンツ、および外部ツールと相互作用するシステムに組み込まれ、新たなアタックサーフェスを生成する: プロンプトインジェクション — 信頼できないデータに埋め込まれた悪意のあるコマンドが信頼できないコマンドをオーバーライドし、意図しない振る舞いを誘発する。
既存のディフェンスは主に、信頼されたコマンドと信頼されていないデータ部分との明確な境界を維持するためにモデルを微調整することに依存し、モデルが信頼されたフィールドを優先順位付けし、データ内の悪意のあるコマンドを無視することを学ぶ。
しかし、これらのディフェンスは、インジェクトされたコマンドによって明らかに悪意ある応答をブロックすることができるが、インジェクトされたコマンドに対するモデルの応答が正しい応答よりもはるかに近い実世界のシナリオには、十分に一般化されていない。
これは、既存のメソッドは通常、手作りの攻撃目標の固定セットに対してのみトレーニングされるためである。
この課題に対処するために、敵の訓練に触発されたより一般化可能なインジェクション防御であるLocalAlignを提案する。
LocalAlignは、データ部分に埋め込まれたコマンドが正しいレスポンスに近づきながら、正しいレスポンスに近づいたレスポンスを誘導する逆例を自動的に効率的に生成する。
我々は、プロンプトと1つの推論ステップを用いて、このような近近反逆例を生成する。
この設計では、正しい応答を囲む厳密な堅牢性境界が強制される:信頼できないデータにおけるコマンドによって引き起こされる小さな応答シフトでさえ、明示的に罰せられる。
さらに、結果として生じる敵の例は、サンプル間で大幅に品質が変化する可能性がある。
この問題に対処するために、各サンプルの距離を正しい応答に定量化し、より近い応答により大きなトレーニング重量を割り当てるマージン対応アライメントアルゴリズムを導入する。
関連論文リスト
- A Sentence Relation-Based Approach to Sanitizing Malicious Instructions [15.879266080043076]
現在の防衛措置は、しばしばLLMベースの検出器を使用して、そのようなコンテンツをフィルタリングする。
SONARは,自然言語推論のメトリクスを用いて注入されたコンテンツを識別・除去する,迅速な衛生化フレームワークである。
SONARは攻撃成功率をほぼゼロに減らし、確立された9つのベースライン防御を著しく上回った。
論文 参考訳(メタデータ) (2026-05-01T20:22:40Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Self-Evaluation as a Defense Against Adversarial Attacks on LLMs [20.79833694266861]
自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデル微調整を必要とせず, 生成モデルの入力と出力を評価するために, 事前学習モデルを用いる。
提案手法の有効性を解析し, 各種設定で評価器を攻撃しようとする試みを含む。
論文 参考訳(メタデータ) (2024-07-03T16:03:42Z) - Single Character Perturbations Break LLM Alignment [20.79833694266861]
モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。
トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。
本研究は, 現行モデルアライメントの脆弱さを浮き彫りにして, より堅牢なアライメント手法の開発の重要性を推し進めるものである。
論文 参考訳(メタデータ) (2024-07-03T16:03:10Z) - Preserving Semantics in Textual Adversarial Attacks [0.0]
敵の攻撃によって生じる敵の事例の最大70%は、意味論を保存していないため破棄されるべきである。
SPE(Semantics-Preserving-Encoder)と呼ばれる新しい完全教師付き文埋め込み手法を提案する。
本手法は, 敵攻撃における既存の文エンコーダよりも1.2倍から5.1倍優れた実攻撃成功率を達成している。
論文 参考訳(メタデータ) (2022-11-08T12:40:07Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。