論文の概要: Archilles' Heel in Semi-open LLMs: Hiding Bottom against Recovery Attacks
- arxiv url: http://arxiv.org/abs/2410.11182v1
- Date: Tue, 15 Oct 2024 02:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:16.880132
- Title: Archilles' Heel in Semi-open LLMs: Hiding Bottom against Recovery Attacks
- Title(参考訳): セミオープン LLM におけるアーチールのヒール:リカバリ攻撃に対するボトムの保護
- Authors: Hanbo Huang, Yihan Li, Bowen Jiang, Lin Liu, Ruoyu Sun, Zhuotao Liu, Shiyu Liang,
- Abstract要約: クローズドソース層が少ないセミオープンモデルの設計について検討する。
我々は,いくつかの底層のみをクローズドソースとして保持する新しいアプローチである textbfSCARA を提案する。
- 参考スコア(独自算出の注目度): 16.086988390549898
- License:
- Abstract: Closed-source large language models deliver strong performance but have limited downstream customizability. Semi-open models, combining both closed-source and public layers, were introduced to improve customizability. However, parameters in the closed-source layers are found vulnerable to recovery attacks. In this paper, we explore the design of semi-open models with fewer closed-source layers, aiming to increase customizability while ensuring resilience to recovery attacks. We analyze the contribution of closed-source layer to the overall resilience and theoretically prove that in a deep transformer-based model, there exists a transition layer such that even small recovery errors in layers before this layer can lead to recovery failure. Building on this, we propose \textbf{SCARA}, a novel approach that keeps only a few bottom layers as closed-source. SCARA employs a fine-tuning-free metric to estimate the maximum number of layers that can be publicly accessible for customization. We apply it to five models (1.3B to 70B parameters) to construct semi-open models, validating their customizability on six downstream tasks and assessing their resilience against various recovery attacks on sixteen benchmarks. We compare SCARA to baselines and observe that it generally improves downstream customization performance and offers similar resilience with over \textbf{10} times fewer closed-source parameters. We empirically investigate the existence of transition layers, analyze the effectiveness of our scheme and finally discuss its limitations.
- Abstract(参考訳): クローズドソースの大規模言語モデルは強力なパフォーマンスを提供するが、ダウンストリームのカスタマイズ性は制限されている。
クローズドソース層とパブリック層を組み合わせたセミオープンモデルは、カスタマイズ性を改善するために導入された。
しかし、クローズドソース層のパラメータはリカバリ攻撃に対して脆弱である。
そこで本稿では,リカバリ攻撃に対するレジリエンスを確保しつつ,カスタマイズ性を向上させることを目的とした,クローズドソース層が少ないセミオープンモデルの設計について検討する。
我々は, 閉ソース層が全体のレジリエンスに与える影響を解析し, ディープトランスフォーマーベースモデルでは, この層より前の層での小さな回復誤差でも回復不良を引き起こすような遷移層が存在することを理論的に証明する。
これに基づいて、いくつかの下層のみをクローズドソースとして保持する新しいアプローチである \textbf{SCARA} を提案する。
SCARAは、カスタマイズのために一般にアクセス可能なレイヤの最大数を見積もるために、微調整なしのメトリクスを使用している。
半オープンなモデルを構築するために5つのモデル(1.3Bから70Bのパラメータ)に適用し、6つの下流タスクでのカスタマイズ性を検証し、16のベンチマークでの様々なリカバリ攻撃に対するレジリエンスを評価する。
SCARAをベースラインと比較し、一般的にダウンストリームのカスタマイズ性能を改善し、textbf{10} 倍以上のクローズドソースパラメータを持つ同様のレジリエンスを提供することを観察する。
遷移層の存在を実証的に調査し,提案手法の有効性を分析し,その限界について論じる。
関連論文リスト
- RLSA-PFL: Robust Lightweight Secure Aggregation with Model Inconsistency Detection in Privacy-Preserving Federated Learning [13.117628927803985]
フェデレートラーニング(FL)は、ローカルモデルを共有することで、中央サーバにプライベートデータを公開することなく、グローバルな機械学習モデルを協調的にトレーニングすることを可能にする。
FLでは、敵が共有モデルパラメータから機密情報を推測する可能性のあるプライバシー上の脆弱性が報告されている。
本稿では,軽量な暗号プリミティブをプライバシリスクに利用したマスキングに基づくセキュアアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T06:01:09Z) - Deploying Privacy Guardrails for LLMs: A Comparative Analysis of Real-World Applications [3.1810537478232406]
OneShieldは、エンタープライズおよびオープンソース環境でのユーザ入力とLLM出力のプライバシーリスクを軽減するために設計されたフレームワークである。
企業規模のデータガバナンスに焦点をあてて、2つの実世界のデプロイメントを分析します。
OneShieldは26言語にわたるセンシティブなエンティティの検出で0.95 F1スコアを獲得し、最先端のツールを上回った。
論文 参考訳(メタデータ) (2025-01-21T19:04:53Z) - SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。
直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。
我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [43.53211005936295]
CoreGuardは、エッジデバイス上でのモデル盗難に対する、計算と通信効率のよいモデル保護アプローチである。
私たちは、CoreGuardがブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成していることを示します。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - SLIP: Securing LLMs IP Using Weights Decomposition [0.0]
大規模言語モデル(LLM)は、最近、アカデミックと産業の両方で広く採用されている。
これらのモデルが成長するにつれて、彼らは価値ある知的財産権(IP)となり、所有者による巨額の投資を反映している。
エッジ上のモデルのIPを保護する現在の方法は、実用性、精度の低下、要求に対する適合性の制限がある。
我々は,エッジデデプロイされたモデルを盗難から保護するために,SLIPという新しいハイブリッド推論アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-07-15T16:37:55Z) - PriRoAgg: Achieving Robust Model Aggregation with Minimum Privacy Leakage for Federated Learning [49.916365792036636]
フェデレートラーニング(FL)は、大規模分散ユーザデータを活用する可能性から、最近大きな勢いを増している。
送信されたモデル更新は、センシティブなユーザ情報をリークする可能性があり、ローカルなトレーニングプロセスの集中的な制御の欠如は、モデル更新に対する悪意のある操作の影響を受けやすいグローバルモデルを残します。
我々は、Lagrange符号化計算と分散ゼロ知識証明を利用した汎用フレームワークPriRoAggを開発し、集約されたプライバシを満たすとともに、幅広いロバストな集約アルゴリズムを実行する。
論文 参考訳(メタデータ) (2024-07-12T03:18:08Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Hide and Seek (HaS): A Lightweight Framework for Prompt Privacy
Protection [6.201275002179716]
本稿では,H(ide)" と "S(eek)" の2つのコアプロセスとして,匿名化のためのプライベートエンティティの隠蔽と非匿名化のためのプライベートエンティティの検索を行うHaSフレームワークを紹介する。
本研究では,HaSのプライバシー保護性能を定量的に評価するために,ブラックボックスモデルとホワイトボックスモデルの両方を提案する。
論文 参考訳(メタデータ) (2023-09-06T14:54:11Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。