論文の概要: MEUV: Achieving Fine-Grained Capability Activation in Large Language Models via Mutually Exclusive Unlock Vectors
- arxiv url: http://arxiv.org/abs/2509.12221v1
- Date: Thu, 04 Sep 2025 07:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.805349
- Title: MEUV: Achieving Fine-Grained Capability Activation in Large Language Models via Mutually Exclusive Unlock Vectors
- Title(参考訳): MEUV: 相互排他的アンロックベクトルによる大規模言語モデルにおける細粒度機能活性化の実現
- Authors: Xin Tong, Zhi Lin, Jingya Wang, Meng Han, Bo Jin,
- Abstract要約: 大きな言語モデル(LLM)は、悪意のある要求を確実に拒否するために安全アライメントを強制する。
しかし、同じ毛布の保護具は、警察、防衛、その他の高所設定における合法的な使用をブロックする。
モノリシックな拒絶方向をトピック整列ベクトルに分解する軽量なフレームワークであるMEUV(Mutually Exclusive Unlock Vectors)を紹介する。
- 参考スコア(独自算出の注目度): 37.488329455418054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) enforce safety alignment to reliably refuse malicious requests, yet the same blanket safeguards also block legitimate uses in policing, defense, and other high-stakes settings. Earlier "refusal-direction" edits can bypass those layers, but they rely on a single vector that indiscriminately unlocks all hazardous topics, offering no semantic control. We introduce Mutually Exclusive Unlock Vectors (MEUV), a lightweight framework that factorizes the monolithic refusal direction into topic-aligned, nearly orthogonal vectors, each dedicated to one sensitive capability. MEUV is learned in a single epoch with a multi-task objective that blends a differential-ablation margin, cross-topic and orthogonality penalties, and several auxiliary terms. On bilingual malicious-prompt benchmarks, MEUV achieves an attack success rate of no less than 87% on Gemma-2-2B, LLaMA-3-8B, and Qwen-7B, yet cuts cross-topic leakage by up to 90% compared with the best single-direction baseline. Vectors trained in Chinese transfer almost unchanged to English (and vice versa), suggesting a language-agnostic refusal subspace. The results show that fine-grained, topic-level capability activation is achievable with minimal utility loss, paving the way for controlled LLMs deployment in security-sensitive domains.
- Abstract(参考訳): 大きな言語モデル(LLM)は、悪意のある要求を確実に拒否するために安全アライメントを強制するが、同じ毛布セーフガードは、警察、防衛、その他の高レベルな設定における正当な使用をブロックする。
以前の "refusal-direction" 編集はこれらのレイヤをバイパスすることができるが、すべての有害トピックを無差別にアンロックする単一のベクタに依存しており、セマンティックコントロールを提供していない。
モノリシックな拒絶方向をトピック整列ほぼ直交ベクトルに分解する軽量なフレームワークであるMEUV(Mutually Exclusive Unlock Vectors)を紹介する。
MEUVは1つのエポックにおいて、差分アブレーションマージン、交叉対向と直交対向のペナルティ、およびいくつかの補助項をブレンドしたマルチタスク目的によって学習される。
バイリンガルの悪意のあるベンチマークでは、MEUVはGemma-2-2B、LLaMA-3-8B、Qwen-7Bの攻撃成功率は87%以下である。
中国語の翻訳で訓練されたベクトルはほとんど英語に変化せず(逆もまた)、言語に依存しない拒絶部分空間を示唆している。
その結果、セキュリティに敏感なドメインにおけるLLMの制御方法として、最小限のユーティリティ損失で、きめ細かいトピックレベルの機能アクティベーションが実現可能であることが示された。
関連論文リスト
- Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。
英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。
この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文 参考訳(メタデータ) (2025-05-22T21:54:46Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [33.49407213040455]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。
近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。
我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文 参考訳(メタデータ) (2024-10-23T18:27:36Z) - Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries [22.24239212756129]
複数のシーケンス(eos)トークンを単に追加するだけで、コンテキストセグメンテーションと呼ばれる現象が発生します。
本稿では, eos トークンを付加することにより, BOOST ジェイルブレイク攻撃の簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。