論文の概要: In-Context Representation Hijacking
- arxiv url: http://arxiv.org/abs/2512.03771v1
- Date: Wed, 03 Dec 2025 13:19:34 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:12:58.188144
- Title: In-Context Representation Hijacking
- Title(参考訳): In-Context Representation Hijacking
- Authors: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman,
- Abstract要約: 大規模な言語モデル(LLM)に対する単純なemphin-context表現ハイジャック攻撃である textbfDoublespeak を導入する。
この置換は、有害なトークンに対して収束した良性トークンの内部表現につながり、有害なセマンティクスをエウヘミズムの下に効果的に埋め込むことを示す。
Doublespeakは最適化不要で、モデルファミリ間で広く転送可能であり、クローズドソースおよびオープンソースシステムで高い成功率を達成する。
- 参考スコア(独自算出の注目度): 15.706479613839967
- License:
- Abstract: We introduce \textbf{Doublespeak}, a simple \emph{in-context representation hijacking} attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., \textit{bomb}) with a benign token (e.g., \textit{carrot}) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.
- Abstract(参考訳): 我々は,大規模言語モデル (LLM) に対する単純な \emph{in-context representation hijacking} 攻撃である \textbf{Doublespeak} を導入する。
この攻撃は、有害なキーワード(e g , \textit{bomb})を複数のインコンテキストの例にまたがって良性トークン(e g , \textit{carrot})に体系的に置き換えることで、有害なリクエストのプレフィックスを提供する。
この置換は、有害なトークンに対して収束した良性トークンの内部表現につながり、有害なセマンティクスをエウヘミズムの下に効果的に埋め込むことを実証する。
その結果、表面的に無害なプロンプト (e g , ` ``How to build a carrot?'') は内部的には許可されていない命令 (e g , ``How to build a bomb?'') として解釈され、それによってモデルの安全アライメントをバイパスする。
私たちは解釈可能性ツールを使用して、このセマンティックオーバライトが層ごとに出現し、初期レイヤの良識が後層で有害なセマンティクスに収束することを示す。
Doublespeakは最適化が不要で、モデルファミリ間で広く転送可能であり、クローズドソースおよびオープンソースシステムで高い成功率を達成し、Llama-3.3-70B-Instructで74\% ASRに達した。
その結果,LLMの潜在空間における新たな攻撃面が明らかとなり,現在のアライメント戦略が不十分であり,代わりに表現レベルで運用すべきであることが判明した。
関連論文リスト
- Semantic Representation Attack against Aligned Large Language Models [18.13997425681567]
大きな言語モデル(LLM)は、有害な出力を防ぐためにアライメント技術を採用する傾向にある。
現在の手法は通常、限定収束、不自然なプロンプト、高い計算コストに苦しむ正確な肯定応答を目標としている。
本稿では,LLMに対する敵対的目的を根本的に再認識する新しいパラダイムであるSemantic Representation Attackを紹介する。
論文 参考訳(メタデータ) (2025-09-18T15:06:46Z) - Response Attack: Exploiting Contextual Priming to Jailbreak Large Language Models [17.860698041523918]
初期の刺激が後続の判断を隠蔽する文脈プライミングは、大言語モデル(LLM)に対する未探索の攻撃面を提供する。
本稿では、補助LDMを用いて、元の悪意のあるクエリのパラフレーズ付きバージョンに対して、軽度に有害な応答を生成するレスポンスアタックを提案する。
RAは7つの最先端のジェイルブレイクテクニックを一貫して上回り、より高い攻撃成功率を達成している。
論文 参考訳(メタデータ) (2025-07-07T17:56:05Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Preserving Semantics in Textual Adversarial Attacks [0.0]
敵の攻撃によって生じる敵の事例の最大70%は、意味論を保存していないため破棄されるべきである。
SPE(Semantics-Preserving-Encoder)と呼ばれる新しい完全教師付き文埋め込み手法を提案する。
本手法は, 敵攻撃における既存の文エンコーダよりも1.2倍から5.1倍優れた実攻撃成功率を達成している。
論文 参考訳(メタデータ) (2022-11-08T12:40:07Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。