論文の概要: SECNEURON: Reliable and Flexible Abuse Control in Local LLMs via Hybrid Neuron Encryption
- arxiv url: http://arxiv.org/abs/2506.05242v1
- Date: Thu, 05 Jun 2025 17:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.835828
- Title: SECNEURON: Reliable and Flexible Abuse Control in Local LLMs via Hybrid Neuron Encryption
- Title(参考訳): SECNEURON:Hybrid Neuron Encryptionによる局所LLMの信頼性とフレキシブル利用制御
- Authors: Zhiqiang Wang, Haohua Du, Junyang Wang, Haifeng Sun, Kaiwen Guo, Haikuo Yu, Chao Liu, Xiang-Yang Li,
- Abstract要約: 多様な機能を持つ大規模言語モデル(LLM)は、ますますローカル環境にデプロイされている。
LLMの本質的な機能に古典的なアクセス制御をシームレスに組み込む最初のフレームワークであるSECNEURONを提案する。
SECNEURONは、未承認タスクの精度を25%以下に制限し、認証された精度の損失を2%に抑えている。
- 参考スコア(独自算出の注目度): 18.837710743179404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with diverse capabilities are increasingly being deployed in local environments, presenting significant security and controllability challenges. These locally deployed LLMs operate outside the direct control of developers, rendering them more susceptible to abuse. Existing mitigation techniques mainly designed for cloud-based LLM services are frequently circumvented or ineffective in deployer-controlled environments. We propose SECNEURON, the first framework that seamlessly embeds classic access control within the intrinsic capabilities of LLMs, achieving reliable, cost-effective, flexible, and certified abuse control for local deployed LLMs. SECNEURON employs neuron-level encryption and selective decryption to dynamically control the task-specific capabilities of LLMs, limiting unauthorized task abuse without compromising others. We first design a task-specific neuron extraction mechanism to decouple logically related neurons and construct a layered policy tree for handling coupled neurons. We then introduce a flexible and efficient hybrid encryption framework for millions of neurons in LLMs. Finally, we developed a distribution-based decrypted neuron detection mechanism on ciphertext to ensure the effectiveness of partially decrypted LLMs. We proved that SECNEURON satisfies IND-CPA Security and Collusion Resistance Security under the Task Controllability Principle. Experiments on various task settings show that SECNEURON limits unauthorized task accuracy to below 25% while keeping authorized accuracy loss with 2%. Using an unauthorized Code task example, the accuracy of abuse-related malicious code generation was reduced from 59% to 15%. SECNEURON also mitigates unauthorized data leakage, reducing PII extraction rates to below 5% and membership inference to random guesses.
- Abstract(参考訳): 多様な機能を持つ大規模言語モデル(LLM)は、ますますローカル環境にデプロイされ、重大なセキュリティとコントロール可能性の課題が提示されている。
これらのローカルにデプロイされたLLMは、開発者の直接コントロール外で動作し、悪用を受けやすい。
クラウドベースのLLMサービス用に設計された既存の緩和技術は、デプロイ制御環境においてしばしば回避または非有効である。
我々は,従来のアクセス制御を LLM の本質的な能力にシームレスに組み込んだ最初のフレームワークである SECNEURON を提案する。
SECNEURONは、LLMのタスク固有の能力を動的に制御するために、ニューロンレベルの暗号化と選択的復号化を採用しており、他人を困らせることなく、不正なタスクの乱用を制限する。
まず、論理的に関連するニューロンを分離するタスク固有のニューロン抽出機構を設計し、結合したニューロンを扱うための階層化されたポリシーツリーを構築する。
次に、LLM内の数百万のニューロンに対して、フレキシブルで効率的なハイブリッド暗号化フレームワークを導入する。
最後に、部分復号化LLMの有効性を保証するために、暗号文上で分布に基づく復号化ニューロン検出機構を開発した。
我々は,SECNEURONがタスク制御可能性原理の下でIND-CPAセキュリティと衝突抵抗セキュリティを満足していることを証明する。
さまざまなタスク設定の実験では、SECNEURONは許可されていないタスクの精度を25%以下に制限し、認証された精度の損失を2%に抑えている。
不正なCodeタスクの例を使用して、悪用に関連する悪意のあるコード生成の精度を59%から15%に下げた。
SECNEURONはまた、不正なデータ漏洩を軽減し、PII抽出レートを5%以下に減らし、ランダムな推測に対する会員推測を行う。
関連論文リスト
- Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders [8.483679748399037]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示したが、個人識別情報(PII)を記憶・漏洩することによりプライバシーリスクを生じさせる。
差分プライバシーやニューロンレベルの介入のような既存の緩和戦略は、しばしばモデルユーティリティを劣化させたり、リークを効果的に防いだりしない。
性能を維持しながらPIIリークを識別・緩和するために解釈可能性技術を活用する,新たなプライバシ保護フレームワークであるPrivacyScalpelを紹介する。
論文 参考訳(メタデータ) (2025-03-14T09:31:01Z) - Preventing Non-intrusive Load Monitoring Privacy Invasion: A Precise Adversarial Attack Scheme for Networked Smart Meters [99.90150979732641]
本稿では,敵攻撃に基づく革新的な手法を提案する。
このスキームは、NILMモデルがアプライアンスレベルのプライバシに違反するのを効果的に防ぎ、ユーザの正確な請求計算を確実にする。
提案手法はトランスファービリティを示し,他の様々なNILMモデルに適用可能な1つのターゲットモデルから発生する摂動信号を生成する。
論文 参考訳(メタデータ) (2024-12-22T07:06:46Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation [67.63756749551924]
学習ベースのニューラルネットワーク(NN)制御ポリシは、ロボット工学と制御の幅広いタスクにおいて、印象的な経験的パフォーマンスを示している。
非線形力学系を持つNNコントローラのトラクション領域(ROA)に対するリアプノフ安定性の保証は困難である。
我々は、高速な経験的ファルシフィケーションと戦略的正則化を用いて、Lyapunov証明書とともにNNコントローラを学習するための新しいフレームワークを実証する。
論文 参考訳(メタデータ) (2024-04-11T17:49:15Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。