論文の概要: Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.10080v1
- Date: Tue, 10 Mar 2026 09:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.61929
- Title: Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models
- Title(参考訳): アムネシア:大規模言語モデルにおける逆意味層特異的活性化ステアリング
- Authors: Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra,
- Abstract要約: 大きな言語モデル(LLM)は有害なコンテンツを生み出す可能性がある。
本研究では,軽量なアクティベーション空間の敵攻撃であるアムネシアを提案する。
実験の結果,提案手法はLSMの様々な反社会的行動を引き起こすことが示唆された。
- 参考スコア(独自算出の注目度): 1.4092255915948473
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Warning: This article includes red-teaming experiments, which contain examples of compromised LLM responses that may be offensive or upsetting. Large Language Models (LLMs) have the potential to create harmful content, such as generating sophisticated phishing emails and assisting in writing code of harmful computer viruses. Thus, it is crucial to ensure their safe and responsible response generation. To reduce the risk of generating harmful or irresponsible content, researchers have developed techniques such as reinforcement learning with human feedback to align LLM's outputs with human values and preferences. However, it is still undetermined whether such measures are sufficient to prevent LLMs from generating interesting responses. In this study, we propose Amnesia, a lightweight activation-space adversarial attack that manipulates internal transformer states to bypass existing safety mechanisms in open-weight LLMs. Through experimental analysis on state-of-the-art, open-weight LLMs, we demonstrate that our attack effectively circumvents existing safeguards, enabling the generation of harmful content without the need for any fine-tuning or additional training. Our experiments on benchmark datasets show that the proposed attack can induce various antisocial behaviors in LLMs. These findings highlight the urgent need for more robust security measures in open-weight LLMs and underscore the importance of continued research to prevent their potential misuse.
- Abstract(参考訳): 警告: この記事では、攻撃的あるいは動揺する可能性のあるLLM応答の妥協例を含む、レッドチームによる実験を紹介する。
大型言語モデル(LLM)は、高度なフィッシングメールの生成や有害なコンピュータウイルスのコード作成の支援など、有害なコンテンツを生成できる可能性がある。
したがって、安全かつ責任ある応答生成を保証することが不可欠である。
有害または無責任なコンテンツを生成するリスクを低減するため、研究者は、LLMの出力を人間の価値観や嗜好と整合させる強化学習と人間のフィードバックのような技術を開発した。
しかし、LSMが興味深い応答を発生させるのを防ぐのに、そのような措置が十分かどうかはまだ定かではない。
本研究では,オープンウェイトLDMにおける既存の安全機構を回避すべく,内部変圧器状態を操作する軽量なアクティベーション空間対向攻撃であるアムネシアを提案する。
現状のオープンウェイトLDMを実験的に分析することにより、我々の攻撃が既存の安全対策を効果的に回避し、微調整や追加訓練を必要とせずに有害なコンテンツの生成を可能にすることを示した。
ベンチマーク・データセットを用いた実験により, 提案手法はLLMの様々な反社会的挙動を誘導できることが示された。
これらの知見は、オープンウェイトLSMにおけるより堅牢なセキュリティ対策の緊急の必要性を強調し、それらの潜在的な誤用を防ぐための継続的な研究の重要性を強調している。
関連論文リスト
- Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Large Language Models are Vulnerable to Bait-and-Switch Attacks for
Generating Harmful Content [33.99403318079253]
大きな言語モデルから来る安全なテキストでさえ、Bait-and-Switch攻撃によって潜在的に危険なコンテンツになる可能性がある。
このアプローチの目覚ましい有効性は、LLMの信頼性の高い安全ガードレールを開発する上で重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T16:46:36Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。